Professional Documents
Culture Documents
CLASSIFICAC
AO
OES
MONOFONICAS
E POLIFONICAS
Rio de Janeiro
Setembro de 2009
CLASSIFICAC
AO
OES
MONOFONICAS
E POLIFONICAS
DISSERTAC
AO
SUBMETIDA AO CORPO DOCENTE DO INSTITUTO
OBTENC
AO
DO GRAU DE MESTRE EM CIENCIAS
EM ENGENHARIA
ELETRICA.
Aprovada por:
de
Instrumentos
Musicais
em
2. Separacao de
iii
iv
Agradecimentos
Agradeco a todas as pessoas que possibilitaram a elaboracao deste trabalho: meus
pais, minha esposa e meu filho, pelo suporte pessoal e compreensao pelas horas
que lhes foram roubadas; `a minha orientadora Mariane Rembold Petraglia pela inspiracao e confianca; aos meus amigos Diego Barreto Haddad pelo apoio irrestrito e
exemplo e Sergio Rodrigues Neves pela ajuda e incentivo, sem os quais nao teria realizado a dissertacao; ao Laboratorio de Processamento de Sinais - LPS, que garantiu
a aquisicao de duas das tres bases de dados usadas nessa dissertacao, em especial
aos Profs. Luiz Wagner Pereira Biscainho e Paulo Antonio Andrade Esquef; ao laboratorio de Processamento Analogico e Digital de Sinais - PADS e ao Instituto de
Pesquisas da Marinha - IPqM, em particular ao Capitao-de-Fragata Jorge Amaral
Alves do Grupo de Guerra Eletronica, pelo grande apoio que me foi concedido.
CLASSIFICAC
AO
OES
MONOFONICAS
E POLIFONICAS
Setembro/2009
vi
September/2009
This work presents a set of techniques for extraction of features and classification of audio signals from recorded music, aiming at recognizing the source, i.e., the
musical instrument. Mixing theoretical and practical aspects, the performance of
current techniques is evaluated, and contributions are proposed for improving the
signal discrimination. Within the scope of the dissertation, classification techniques
such as Support Vector Machine, Linear Discrimination and K -Nearest-Neighbors
as well as techniques for feature extraction such as Linear Prediction coefficients,
Line Spectral Frequencies and Cepstral Coefficients are discussed. A preliminary
study on a hierarchic classification is shown and compared against other methods
presented in the literature. At last, applications of techniques for musical instruments classification with algorithms for sources separation from polyphonic and
monophonic signals are proposed.
vii
Sumrio
Lista de Abreviaturas
xiii
I Introduo
1 Apresentao
1.1
Tema e Motivao . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2
Objetivo do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3
Abordagens da Literatura
. . . . . . . . . . . . . . . . . . . . . . . .
1.4
Organizao do Texto
. . . . . . . . . . . . . . . . . . . . . . . . . .
Componentes
2.1.1
2.1.2
2.2
11
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
Caractersticas do Som . . . . . . . . . . . . . . . . . . . . . .
13
2.1.1.1
Altura . . . . . . . . . . . . . . . . . . . . . . . . . .
13
2.1.1.2
Intensidade e Durao
. . . . . . . . . . . . . . . . .
14
2.1.1.3
Timbre
. . . . . . . . . . . . . . . . . . . . . . . . .
15
Elementos Constitutivos
. . . . . . . . . . . . . . . . . . . . .
15
2.1.2.1
Corpo Vibratrio . . . . . . . . . . . . . . . . . . . .
15
2.1.2.2
Corpo . . . . . . . . . . . . . . . . . . . . . . . . . .
15
2.1.2.3
Caixa de Ressonncia
. . . . . . . . . . . . . . . . .
15
2.1.2.4
16
2.1.2.5
Acessrios . . . . . . . . . . . . . . . . . . . . . . . .
16
Agrupamentos Hierrquicos
. . . . . . . . . . . . . . . . . . . . . . .
16
2.2.1
Sistema Grego . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
2.2.2
17
viii
. . . . . . . . . . . . . . . . . . .
2.2.2.1
Idiofones
. . . . . . . . . . . . . . . . . . . . . . . .
18
2.2.2.2
Membranofones . . . . . . . . . . . . . . . . . . . . .
19
2.2.2.3
Cordofones
. . . . . . . . . . . . . . . . . . . . . . .
19
2.2.2.4
Aerofones
. . . . . . . . . . . . . . . . . . . . . . . .
20
2.2.3
20
2.2.4
. . . . . . . . . . . . . . .
21
2.2.4.1
Eletrofones
. . . . . . . . . . . . . . . . . . . . . . .
21
2.2.4.2
Teclados . . . . . . . . . . . . . . . . . . . . . . . . .
21
2.2.4.3
Em funo da Altura . . . . . . . . . . . . . . . . . .
22
23
3 Segmentao e Pr-processamento
24
3.1
24
3.2
. . . . . . . . .
25
3.3
3.2.1
. . . . . . . . . . . . . .
26
3.2.2
Mtodo do Mximo . . . . . . . . . . . . . . . . . . . . . . . .
27
3.2.3
Mtodo do Filtro
. . . . . . . . . . . . . . . . . . . . . . . . .
27
29
3.3.1
. . . . . . . . . . . . . . . .
30
3.3.2
3.3.3
3.4
Denies Originais
. . . . . . . . . . . . . . . . . .
30
3.3.1.2
Denies Alternativas . . . . . . . . . . . . . . . . .
32
3.3.1.3
Exemplos
. . . . . . . . . . . . . . . . . . . . . . . .
33
34
3.3.2.1
. . . . . . . . . . . . . .
35
3.3.2.2
36
. . . . . . . . . . . . . . . . . . . . .
38
41
4 Extrao de Caractersticas
44
4.1
Descritores Temporais
. . . . . . . . . . . . . . . . . . . . . . . . . .
44
4.2
Descritores Especcos
. . . . . . . . . . . . . . . . . . . . . . . . . .
46
4.3
. . . . . . . . . . . . . . . . . . . . .
ix
47
4.4
49
4.5
Caractersticas Cepstrais . . . . . . . . . . . . . . . . . . . . . . . . .
49
4.6
50
4.7
Vetor de Caractersticas
52
. . . . . . . . . . . . . . . . . . . . . . . . .
5 Mtodos de Classicao
5.1
K -Vizinhos
5.2
Discriminantes Lineares
5.2.1
5.3
58
mais Prximos . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
60
. . . . . . . . .
61
62
5.3.1
63
5.3.2
5.3.3
60
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . .
64
5.3.2.1
Polinomial . . . . . . . . . . . . . . . . . . . . . . . .
65
5.3.2.2
65
5.3.2.3
65
5.3.2.4
Multi-Layer Perceptron
65
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . .
65
. . . . . . . . . . . . . . . .
67
6.2
Abordagens Multiclasse . . . . . . . . . . . . . . . . . . . . . . . . . .
69
6.3
Estratgias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
72
6.3.1
. . . . . . . . . . . . . . . . . .
74
6.3.2
74
6.3.3
77
. . . .
III Resultados
81
82
7.2
85
7.3
86
7.4
87
7.5
. . . . . . . . . . . . . . . . . . . . . . . . . .
90
7.6
93
7.6.1
94
7.6.2
95
7.6.3
98
7.6.4
7.6.5
7.7
. . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
99
107
8.1.2
8.2
8.3
. . . . . . . 119
124
9.1
. . . . . . . . . . . . . . 126
9.2
9.3
9.4
9.5
Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
9.5.1
9.5.2
Anlise dos Resultados para Misturas contendo Sinal Interferente ou Rudo Branco . . . . . . . . . . . . . . . . . . . . . . 140
148
xi
. . . . . . . . . . . . 153
IV Concluso
157
11 Concluso
158
Referncias Bibliogrcas
169
V Apndices
175
176
A.1
A.2
A.3
A.4
xii
186
Lista de Abreviaturas
ADSR
BW
CDA
CQT
Constant Q Transform.
DCT
DEAM
DFT
DLG
FFT
FRBS
FS
GMM
HMM
IMF
K-NN
Incio-Meio-Fim.
K-Nearest-Neighbors .
LDA
LPC
LSF
MFCC
MFPC
MFPPC
MIMO
MIS
xiii
MISO
MUMS
PCA
QDA
RBF
RMS
RWC
SC
Spectral Centroid.
SCF
SDR
Signal-to-Distortion Ratio.
SF
SIMO
SIR
SISO
Separao de Fontes.
SNR
Signal-to-Noise Ratio.
SPC
STFT
SVM
TP
Temporal do Pulso.
ZCR
Zero-Crossing Rate.
xiv
Parte I
Introduo
Captulo 1
Apresentao
1.1 Tema e Motivao
Um sistema de classicao de instrumentos musicais a partir de sinais gravados representa uma sub-rea de estudo do processamento de sinais de udio.
Pode-se, de antemo, identicar alguns tpicos necessrios ao desenvolvimento do tema proposto, tais como: denio de nota musical, extrao de caractersticas das notas, taxonomia dos instrumentos musicais e classicadores.
Normalmente um sistema de classicao de instrumentos musicais pode ser
estruturado como uma sequncia de blocos que correspondem aos diversos problemas
(relativamente) independentes supracitados.
Assim, um sistema de reconhecimento de instrumentos musicais envolve necessariamente os seguintes estgios: pr-processamento para ltrar informaes desnecessrias e destacar os aspectos que devero ser contemplados; tcnicas de extrao
de caractersticas relevantes desses trechos, visando maximizar a discriminao dos
instrumentos distintos; tcnicas de agrupamento de amostras similares, visando minimizar o erro de classicao; e de classicao, visando identicar o agrupamento
associado ao vetor de caractersticas extradas de um trecho de uma dada amostra.
Cada um dos blocos referidos na Figura 1.1 por si representa uma linha
prpria de pesquisa.
visam catalogar discotecas atravs de um processo automtico (rotulando cada msica de acordo com a presena dos instrumentos musicais que a compem, facilitando
assim uma busca seletiva); a transcrio automtica de msica [1], quando o processo de classicao, depois de determinado o momento de ocorrncia de uma nota
musical, capaz de identicar, alm do instrumento que a emitiu, o pitch e a durao da nota, facilitando o seu registro correto no trecho musical; ou a codicao
de udio em alto nvel, ao se usar uma modelagem da fonte sonora, tendo esta
sido previamente identicada pelo processo de classicao, para reproduzir total
ou parcialmente a nota, evitando, assim, uma codicao de baixo nvel, ou seja,
uma codicao que exija manipulao direta das amplitudes do sinal [2].
distintas serve para validar os mtodos empregados. Portanto, espera-se que o sistema de classicao que obtiver o melhor resultado numa base de dados seja uma
das solues a apresentar os melhores resultados na outra base de dados, devendo
apresentar taxas de acertos consistentes e, portanto, revelando sua capacidade de
generalizao.
A opo por abordar a classicao de instrumentos musicais a partir de notas isoladas nesse estudo pode ser justicada por diversos motivos. Primeiramente,
ela pode ser adaptada tanto para classicar trechos monofnicos de uma msica
(polifnica) quanto para outros sinais de udio oriundos de uma nica fonte.
No
Portanto, esses
Atualmente, a maior
parte dos estudos desta rea contempla o caso monofnico, seja em notas isoladas,
seja em trechos de msica solo.
Antes de iniciarmos o presente trabalho, foi feito um levantamento de trabalhos de diversos autores na rea de classicao de instrumentos musicais, em que
foram examinadas a taxa de acerto mdia obtida e a abordagem utilizada.
Essa
avaliao objetivou angariar uma noo tanto das diculdades enfrentadas quanto
dos desempenhos obtidos, e qual o estado da arte. Os resultados desses trabalhos
nem sempre podem ser diretamente comparados, por terem sido elaborados a partir
de restries e com objetivos ligeiramente distintos e, eventualmente, de banco de
dados diferentes.
escalas completas para um total de 14 instrumentos (violino, viola, violoncelo, contrabaixo, auta, piccolo, clarinete, obo, corne ingls, fagote, trompete, trombone,
trompa e tuba). As amostras foram obtidas da McGill Masters Samples, MUMS [5].
Foram usadas as macro-famlias cordas, madeiras e metais. As notas foram divididas em dois grupos de 70% e 30% para treinamento e teste, respectivamente. Foram
construdos classicadores maximum a posteriori baseados em modelos gaussianos
derivados diretamente da anlise mltiplo-discriminante de Fisher. Nesse estudo foi
constatada uma melhora no desempenho da classe madeiras quando reagrupada em
subclasses mais homogneas, ou seja, quando as autas foram separadas do conjunto formado pelas palhetas e metais (utes/reeds-brass ). Posteriormente foi feita
uma nova separao das palhetas dos metais (reeds/brass ).
outro para teste. Os instrumentos usados foram gaita, clarinete, auta, cravo, rgo, piano, trombone e violino. Para tanto, usaram-se segmentos do sinal de durao
igual a 0,2 s para a extrao das caractersticas. O sistema proposto nesse trabalho
obteve uma taxa de acerto de 70% na determinao do instrumento que originou
o trecho de som.
hierrquica (abordada na Seo 6.3.2) contra a classicao no-hierrquica, chegando concluso de que a classicao no-hierrquica vantajosa em termos de
K-
vizinhos mais prximos foi 1-NN com norma 1 para a mtrica de distncia.
As
caractersticas mais relevantes de um total de 9 tipos de caractersticas foram noharmonicidade, centride espectral e energia contida na primeira parcial.
Alm
f0 -dependente e en-
analisada, aplicada uma Short-time Fourier Transform (STFT), com uma janela
de Hanning de 4096 pontos; os picos espectrais so extrados do espectro de potncia do sinal. A partir dos picos, so obtidas a
f0
posteriormente Principal Component Analysis (PCA), para reduzir o espao de dimenso 129 para dimenso 79. Depois usou-se Linear Discriminant Analysis (LDA),
conseguindo-se uma reduo para um espao de dimenso 18, no caso de 19 instrumentos. So extradas 40 caractersticas espectrais, 35 caractersticas temporais, 32
caractersticas de modulao e 22 caractersticas de componentes no-harmnicos.
So usados 6.247 tons solo de 19 instrumentos, obtendo-se taxas de acerto de cerca
de 90% e 80% para famlia e instrumento, respectivamente.
Em 2004, Krishna e Sreenivas publicaram um artigo [3] que prope o uso de
K -NN.
corporation's RWC [11]. Foram obtidas taxas de acerto de 95% e 90% para famlia
e instrumento, respectivamente.
Exceto para Marques [6], todos os outros resultados reportados se referem a
sistemas classicadores que utilizam notas isoladas.
10
Captulo 2
Instrumentos Musicais e suas
Classicaes Hierrquicas
O estudo dos instrumentos musicais conhecido como organologia. O propsito de um instrumento musical produzir msica e, para tanto, os materiais
empregados e a forma do objeto, bem como o modo de produzir o som, so elementos importantes para a construo e a classicao do instrumento musical. Existem
diversas formas de classicar os instrumentos musicais, segundo diferentes perspectivas, e cada uma delas se presta melhor para uma dada nalidade. A mais comum
se baseia na forma pela qual o som produzido.
No contexto das orquestras sinfnicas, por exemplo, comum dividir os instrumentos musicais em cordas, sopros (subdivididos em metais e madeiras) e percusso, o que vem a ser uma classicao hbrida, misturando a forma como o som
produzido e o material empregado na confeco do instrumento musical. As madeiras podem ser subdivididas em palhetas (lminas que com a passagem do ar vibram
produzindo o som do instrumento) e sem palhetas (autas). Dessa forma podemos
classicar os instrumentos por essa regra em:
percusso.
Em tese, qualquer objeto pode servir para produzir sons e ser utilizado na
msica, mas costuma-se utilizar o termo instrumento musical para designar objetos
que so elaborados especicamente com o propsito de produzir msica. A seguir
apresentaremos um breve resumo das principais caractersticas presentes num instrumento musical, pois esses elementos em alguns casos so determinantes na formao
11
As notas, independente-
mente das oitavas, so sete, a saber [12]: `C' - d, `D' - r, `E'- mi, `F' - f, `G' sol, `A'- l, `B' - si, podendo representar at 12 semitons com o uso dos acidentes
(bemol para abaixamento e sustenido para elevao), o que pode ser expresso em
uma das duas escalas abaixo:
Por sua vez, as oitavas costumam ser numeradas em algarismos arbicos crescentes
com a frequncia fundamental da nota. Tipicamente adota-se como referncia L 4
em 440 Hz e uma distribuio de temperamento igual, o que signica que a frequncia
fundamental associada a cada nota dada pela seguinte expresso:
frequncia
= 440 2oitava4+
tom10
12
(2.1)
Esse captulo ser dividido em duas sees, uma contendo uma descrio dos
componentes que existem em um instrumento musical e outra contendo os agrupamentos hierrquicos tradicionalmente encontrados nos estudos sobre organologia.
2.1 Componentes
Instrumento musical qualquer artefato capaz de produzir msica. denido
como tal todo artefato que de fato consegue controlar com preciso pelo menos
algumas das caractersticas do som produzido, tais como: altura (grave, mdio e
agudo), durao (do som e/ou do silncio), intensidade e timbre.
Por existir uma gama enorme de instrumentos musicais, a generalizao das
caractersticas que descrevem o funcionamento de um instrumento musical difcil;
porm, alguns elementos constitutivos permanecem presentes, tais como: corpo vibratrio, corpo, elementos de estmulos e controle, caixa de ressonncia e acessrios.
A seguir so descritas as principais caractersticas do som, controlados por um instrumento musical, bem como seus principais elementos constitutivos. As descries
12
Isso
13
14
2.1.1.3 Timbre
O timbre o elemento sonoro que faz com que um ouvinte seja capaz de
distinguir a mesma nota quando produzida por diferentes instrumento musicais.
o que comumente se dene como a cor do som. Assim, facilmente somos capazes de
distinguir a nota produzida por um obo quando a comparamos com a mesma nota
produzida por um violino. Essa percepo se d pelas relaes entre as intensidades
dos harmnicos que cada instrumento gera ao produzir uma nota.
2.1.2.2 Corpo
a parte do instrumento que mantm unidas as demais partes do instrumento, como no agog. Em diversos instrumentos o corpo possui funes tambm
na produo ou controle do som, como nos casos dos corpos do violino ou do violo,
que servem como caixas de ressonncia e tambm ajudam no tensionamento das
cordas, permitindo que o instrumentista tenha controle sobre a altura das notas.
15
2.1.2.5 Acessrios
Alguns instrumentos permitem o uso de acessrios com a nalidade de alterar
a forma de execuo ou modicar algumas caractersticas do som produzido. Podemse citar: caixas de ressonncia alternativas, abafadores (que diminuem a intensidade
sonora), surdinas (que abafam e modicam o som produzido), suportes ou alas (que
servem para facilitar a execuo em posies no convencionais).
16
O primeiro
cordas e
1. Cordas-Homem
2. Cordas-Misto
3. Cordas-Mulher
4. Sopro-Homem
5. Sopro-Misto
6. Sopro-Mulher
7. Percusso-Homem
8. Percusso-Misto
9. Percusso-Mulher
17
pelos gregos antigos e tericos europeus da Idade Mdia, elaborou uma classicao em forma de rvore, onde os ramos representam instrumentos musicais da sua
classe. Para elaborar essa classicao o elemento usado foi o tipo de vibrao causado pelo material usado no corpo vibratrio, a partir do qual o som produzido.
Essa abordagem gerou as seguintes famlias para os instrumentos musicais: a) autofones; b) membranofones; c) cordofones e; d) aerofones. Esse sistema apresentou
como restrio basicamente a incompletude, por se restringir aos instrumentos europeus e o modo de utilizao de alguns instrumentos. Essa concepo gera algumas
inconsistncias como no caso dos instrumentos de teclado e mecnicos [16].
O sistema de Mahillon foi ampliado por Curt Sachs e Erich von Hornbostel,
dando origem ao chamado sistema Hornbostel-Sachs de classicao. Alm de mudarem o nome da classe autofones para idiofones, eles alteraram a forma de subdiviso
de suas classes e introduziram um cdigo decimal baseado no cdigo que Melvil
Dewey criou para a classicao de livros em bibliotecas. A seguir apresentamos as
famlias de instrumentos musicais conforme a classicao mais usual, baseada no
sistema de Hornbostel e Sachs.
1. Cordofones
2. Idiofones
3. Membranofones
4. Aerofones
2.2.2.1 Idiofones
Os idiofones so aqueles que produzem som ao serem percutidos, provocando
a vibrao de todo o instrumento musical. Alguns exemplos so:
Agog;
Bateria (pratos), Bloco sonoro;
Caneca, Carrilho, Castanhola, Celesta, Chocalho;
Glockenspiel, Gongos;
Matraca;
Pratos;
Reco-reco;
18
2.2.2.2 Membranofones
Os membranofones so aqueles em que o som produzido quando so percutidos sobre uma membrana esticada que entra em vibrao. As membranas podem
ser de origem animal, sintticas ou at mesmo de tecido. Alguns exemplos so:
Bateria;
Caixa, Cuca;
Djemb;
Pandeireta (pele), Pandeiro (pele);
Repinique, Surdo;
Tambor, Tamborim, Tom-tom;
Zabumba.
2.2.2.3 Cordofones
Os cordofones, ou instrumentos de cordas so aqueles em que o som obtido
pela vibrao das cordas. As cordas podem ser dedilhadas, percutidas ou colocadas
em vibrao com um arco (friccionadas). Alguns exemplos so:
Alade;
Baixo, Balalaica, Bandolim, Banjo, Berimbau ou Urucungo;
Cavaquinho, Cembalo, Ctara, Clavicrdio, Contrabaixo, Cravo;
Dulcmer;
Espineta;
Guitarra, Guitarra inglesa;
Harpa;
Kantele - (Derivado da Ctara), Koto;
Lira;
Piano;
Rabeca;
Saltrio, Sanfona, Sangen, Siamise, Sitar;
Ukulele;
Violo, Viola, Viola caipira, Viola da gamba, Violino, Violoncelo.
19
2.2.2.4 Aerofones
Os aerofones, ou instrumentos de sopro, so aqueles que produzem som
quando o ar ao ser neles introduzido entra em vibrao, excitando os componentes do instrumento musical. Alguns exemplos so:
Acordeo;
Bombardino;
Clarinete, Clarone, Corne-ingls;
Escaleta;
Fagote, Flauta (contralto, doce, baixa) Flautim, Flugelhorn;
Gaita;
rgo, Obo, Ocarina;
Pfaro;
Saxofone (contralto, baixo, bartono, tenor);
Trompa, Trompete (de pistes, de chaves), Trombone, Tuba.
20
II: Aerofones
II.A: Com ar ambiente - (exemplo: acordeo)
II.B: Contendo Cavidades Livres - (exemplo: tambores)
II.C: Contendo uma coluna de ar - (exemplo: autas)
Esta
Ondas Martenot
rgo Eletrnico
Piano Digital
Sampler
Sintetizador
Teremim
2.2.4.2 Teclados
Os instrumentos de teclas so agrupados nessa categoria pelo modo de tocar,
nesse caso, so consierados como pertencentes a uma categoria a parte, no entanto,
tambm podem ser classicados nas diversas categorias anteriormente relacionadas
nessa dissertao (como por exemplo, pelo modo de produo do som).
exemplos so:
Acordeo (Sopro)
Celesta (Percusso)
Clavicrdio (Cordas)
Cravo (Cordas)
Piano Digital (Instrumento Eletrnico)
rgo (Sopro)
Piano (Cordas)
21
Alguns
1. Baixo
2. Bartono
3. Tenor
4. Contralto
5. Soprano
Assim, dependendo da escala em que o instrumento atua, ele pode ser enquadrado numa das classes acima e mesmo ser adjetivado por elas, como o saxofone.
22
Parte II
Viso Geral do Sistema de
Classicao
23
Captulo 3
Segmentao e Pr-processamento
Para efeitos de conveno, neste trabalho entende-se nota musical como sendo
o sinal acstico associado ao som (tipicamente, com altura denida) produzido por
um determinado instrumento musical. Nesse captulo, se apresentaro as transformaes efetuadas sobre as notas antes de se extrair as caractersticas pertinentes
ao processo de classicao.
ca-
dos acusticamente (sem interferncias nem reverberaes ). Assim, dada uma nota,
1 Exceto a base de dados MUMS, que possui tempo de reverberao igual a 0,4 s
2 O timbre uma caracterstica perceptiva associada ao processo de identicao de um instrumento musical podendo ser modicado (em maior ou menor grau) pelos elementos citados nessa
lista.
24
1. o instrumento;
2. o modelo (marca, fabricante) do instrumento;
3. o msico;
4. as variaes
etc;
5. o pitch com que a nota produzida;
6. a intensidade, nvel dinmico, com que a nota produzida.
tremolo
nota musical.
5O
vibrato
nota musical. O
vibrato
na velocidade em que o
6O
pizzicato
pitch
(frequncia) da
pitch
pitch,
quanto
varia.
7O
staccato
oset.
25
Amplitude(n)
1
0.5
0
0.5
1
0
0,5
1,5
n (amostras)
(a)
2,5
0,5
1,5
n (amostras)
(b)
2,5
0,2
P i (n)
0
0,4
0,2
0
Pi (n).
A partir do primeiro
pico, inicia-se uma exponencial denida por uma taxa de decaimento previamente
estabelecida de forma emprica. O mtodo emprico empregado foi estabelecido a
partir da base de dados MIS, avaliando a taxa de decaimento da parte nal da nota
de maior pitch para todos os instrumentos dessa base de dados.
Posteriormente
26
Pi (n) = Pi (n 1)e0,002 ,
onde
Pi (n 1)
(3.1)
n 1.
Pi (n),
27
0,8
Pi(n)
0,6
0,4
0,2
0
0,5
1,5
n (amostras)
(a)
2,5
Pi(m)
0,5
0
1
0,5
0
20
40
60
80
100
m (segmentos)
(b)
120
140
160
Figura 3.2: Envoltrias da nota de um Clarinete: (a) mtodos DEAM; (b) mtodo
do Mximo.
28
nmero nal de amostras, aps a convoluo, superior ao nmero inicial, dado pelo
comprimento do sinal L somado ordem do ltro passa-baixas.
Pi(n)
0,1
0,05
0,5
1,5
n (amostras)
(a)
2,5
Pi(m)
0,1
0,05
20
40
60
80
100
m (segmentos)
(b)
120
140
160
Figura 3.3: Envoltrias da nota de um Clarinete (a) pelo mtodo do ltro e (b) pelo
mtodo da mdia.
29
Por exemplo,
quando o msico prolonga a nota do instrumento (aumentando a durao do segmento intermedirio), ou quando a abafa repentinamente (ocasionando uma reduo
do segmento nal), provoca voluntariamente padres diversos para a mesma nota
proveniente da mesma fonte (instrumento) num dado cenrio (ambientao acstica). Essas alteraes podem gerar confuses caso se queira identicar somente o
instrumento. Nesses casos podemos dizer que certas caractersticas (durao, por
exemplo) desses segmentos, intermedirio e nal, sofreram uma maior modicao
pelo instrumentista do que os segmentos iniciais da nota.
10
interveno do instrumentista
a extrao de caractersticas uma estratgia que deve ser considerada, principalmente quando se quer obter caractersticas para reconhecimento de fontes comuns,
independentemente das inexes expressivas (tais como o vibrato ) que o instrumentista possa vir a inserir no som produzido. Isto importante, j que essas alteraes
podem em princpio ser um fator complicador para a discriminao dos instrumentos
musicais.
30
e Release )
11
12
. Representa,
13
11 Esse modelo foi concebido por Vladimir Ussachevsky em 1965, quando liderava a
. O seg-
Columbia-
31
O segmento de decaimento
14
. O segmento de relaxao
denido como o intervalo entre o instante associado ao primeiro pico (mximo local)
com valor superior ao limiar de rudo de fundo, a partir do nal da nota, e o instante
em que o sinal volta a car menor que o limiar de rudo de fundo (no sentido do
incio ao nal da nota). Por m, o segmento de sustentao obtido pelo intervalo
situado entre o nal do segmento de decaimento e o incio do segmento de relaxao.
Como visto anteriormente, as denies aqui propostas para os trechos de
uma nota diferem das do modelo ADSR convencional.
chamaremos o mtodo proposto de modelo ADSRm.
A modicao proposta se
deve basicamente ao fato de os sinais reais apresentarem em alguns casos comportamento no previsto pelo modelo ADSR que, se fosse aplicado, descaracterizaria o
signicado dos segmentos (e.g., um ataque com durao at o meio da nota). O modelo ADSRm obtm segmentos similares aos do ADSR, sendo capaz de determinar
tambm, quando for o caso, a ausncia do decaimento e da sustentao.
o instante de trmino do primeiro vale.
14 Note-se que o mtodo descrito difere um pouco quanto ao momento do incio do segmento de
sustentao apresentado na Figura 3.4, em que o incio do trecho de sustentao comea a partir
do primeiro pico que sucede o primeiro vale.
32
Pi(m)
0,03
0,02
0,01
0
20
40
60
80
m (segmentos)
(a)
100
120
Pi(m)
0,03
Envoltria
0,02
0,01
Limiar 10%
20
40
60
80
m (segmentos)
(b)
100
120
Figura 3.5: Segmentao segundo o modelo ADSRm de uma nota C4 de uma auta
contralto.
3.3.1.3 Exemplos
Nas Figuras 3.5, 3.6, 3.7 apresentamos resultados de segmentao obtidos
para 3 instrumentos, respectivamente: Flauta Contralto sem vibrato, Saxofone Contralto sem vibrato e Violino pizzicato.
No caso da auta, ilustrado pela Figura 3.5, pode-se constatar que o segmento
de decaimento bastante curto. J no caso do saxofone contralto, apresentado pela
Figura 3.6, o segmento de decaimento melhor destacado. Pode-se tambm observar
que neste caso todos os segmentos aparecem na forma prevista pelo modelo ADSR.
Finalmente, no caso da envoltria da nota do violino, apresentada na Figura
3.7, pode-se perceber que a nota da envoltria do violino s apresenta os segmentos
de ataque e relaxao. Conforme j comentado, determinadas notas de instrumentos
33
0,08
Pi(m)
0,06
0,04
0,02
0
10
20
30
40
50
m (segmentos)
60
70
80
0,08
Envoltria
Pi(m)
0,06
0,04
0,02
Limiar 10%
10
20
30
40
50
m (segmentos)
60
70
80
15
Para
15 Os trechos marcados nas guras 3.5 a 3.7 foram obtidos automaticamente pelo algortimo
implementado para o modelo ADSRm
34
0,4
Pi(m)
0,3
0,2
0,1
0
10
15
m (segmentos)
20
25
0,4
Pi(m)
0,3
Envoltria
0,2
0,1
Limiar 10%
10
15
m (segmentos)
20
25
nota.
16
pela primeira
vez ultrapassa o limiar at o instante em que a potncia da nota pela ltima vez
cruza esse mesmo limiar.
do nvel do rudo de fundo, pois caso contrrio se poder ter amostras do segmento
contendo somente rudo de fundo. Infelizmente, nessa abordagem, o controle do segmento extrado da nota restrito, ou seja, ser impossvel garantir a extrao de um
segmento intermedirio delineado por nveis distintos de potncia, por um intervalo
de tempo predeterminado, ou mesmo um segmento de sustentao, conforme pode
ser visto na Figura 3.8, a qual ilustra essa situao.
No presente trabalho, usaram-se valores de limiar entre 10% e 90% da mdia
35
0,08
0,07
Decaimento
1 Limiar alto
0,06
1 Limiar baixo
Pi[m]
0,05
0,04
Sustentao
0,03
Relaxao
0,02
Trecho Extrado com 1 limiar alto
0,01
0
10
20
30
40
50
m (segmentos)
60
70
80
36
17
o primeiro segmento (incio), ser denido pelo intervalo que vai do instante
em que o sinal
18
subida do sinal;
o segundo segmento ser denido pelo intervalo que vai do instante em que o
sinal cruza a primeira vez o limiar 2 at o instante em que o sinal cruza pela
ltima vez o limiar 2, ou seja, a partir do
como segmento
meio
estacionrio19 ;
do sinal.
18 Neste contexto o termo sinal poder ser entendido como envoltria do sinal ou potncia
instantnea do sinal.
37
20
fundamental)
0,08
0,07
Estacionrio (meio)
0,06
Pi(m)
0,05
Limiar 90%
0,04
0,03
Descida (fim)
0,02
Subida (incio)
0,01
0
Limiar 10 %
10
20
30
40
50
m (segmentos)
60
70
80
20 Caso ocorra variaes na amplitude, como o caso do tremolo, ainda assim teremos a frequncia
fundamental apresentando pouca variao.
38
potncia do sinal.
39
Para tanto, precisaremos de algoritmos estimadores de pitch. Foram avaliados vrios algoritmos estimadores de pitch, que apresentaram resultados similares.
Portanto, apresentaremos somente o estimador de pitch a partir da funo de autocorrelao da nota [22].
O tamanho do segmento foi determinado pela menor frequncia audvel, uma
vez que a menor frequncia proporcionar o maior comprimento de onda, que dever
caber dentro da janela usada para estimarmos o pitch. Como a menor frequncia
da base de dados o D da primeira oitava, ou seja, 32,7 Hz, e esta frequncia est
prxima do limite inferior da audio humana (20Hz), preferiu-se arredondar para
baixo (30Hz) esse limite, deixando-o prximo ao limite inferior da audio humana e
independente do limite inferior da tessitura de qualquer instrumento sob considerao neste trabalho. J o limite superior foi a maior frequncia encontrada na base de
dados, que de 3.951,07 Hz, portanto, nesse caso preferiu-se a nota imediatamente
acima
(C8, 4.186, 01
Hz
4.200
21
Os resultados obtidos para o Saxofone Contralto A4 e Trompa B2 so apresentados nas Figuras 3.11 e 3.12, respectivamente.
No caso de estimarmos o pitch para a nota B2 de uma trompa, podemos
novamente observar que os mtodos 1 e 2 se aproximam do pitch real.
O que se
pode concluir que, apesar de notarmos que possvel destacar o momento em que
o pitch alcanado dentro da nota e quando ele se encerra, observamos tambm que
a estacionariedade do pitch rapidamente obtida, assim podemos dizer que o pitch
se estabiliza ainda durante o ataque e se prolonga at quase o nal da relaxao.
Portanto, pode-se armar que boa parte do segmento associado subida e
parte do segmento associado descida do sinal ainda apresentam estacionariedade
do pitch.
Portanto, o mtodo para obtermos segmentos a partir do pitch ser descartado neste trabalho, visto que o segmento intermedirio deste modelo praticamente
destaca a nota inteira. No entanto, isto no signica que, caso venhamos a extrair
as caractersticas desse segmento, no possamos obter bons resultados. Logo, esse
21 Poderia-se, sem acrscimo no esforo computacional, usar o limite superior da audio humana
(20 kHz), mas no estamos contemplando essas frequncias.
40
Pi (m)
0,25
0,2
0,15
0,1
Pitch = 443,2161
0,05
0
10
20
30
40
50
m (segmentos)
60
70
80
90
22
poder ser
futuramente investigado.
22 Os segmentos associados subida e descida do sinal para a maioria dos casos avaliados praticamente inexistem.
41
0,1
Pi (m)
0,08
0,06
0,04
0,02
Pitch = 123,0126
0
10
20
30
40
50
m (segmentos)
60
70
80
90
argumentar que poderamos deixar que tais diferenas de dinmica fossem resolvidas
pelo classicador. Contudo, observou-se que determinados classicadores, como a
SVM e as Redes Neurais, podem eventualmente apresentar problemas de convergncia na ausncia de escalamento das amostras num dado segmento. Assim, para
evitar problemas de convergncia e possveis confuses nas superfcies de separao,
que poderiam car demasiadamente especializadas com os nveis dinmicos encontrados na base de dados, optou-se por fazer um escalamento dinmico de todas as
amostras conforme:
x =
~x x
(3.2)
Assim, para um dado segmento extrado por um dos mtodos descritos anteriormente, feito o escalamento do segmento, e so calculados os valores
m2
(varincia),
m3 ,
m4
m1 (mdia),
conforme [23]
1 X
xi , i = 1 . . . N
N
r
1 X
2
2
m2 = E[(~x x) ] = , =
(xi x)2 , i = 1 . . . N
N 1
m1 = E[~x] = x =
42
(3.3)
(3.4)
1 X
(xi x)3 , i = 1 . . . N
N
1 X
m4 = E[(~x x)4 ] =
(xi x)4 , i = 1 . . . N
N
m3 = E[(~x x)3 ] =
(desvio padro),
m3
m4
(3.5)
(3.6)
tenha mdia zero e desvio-padro unitrio, sendo que, para o valor armazenado do
desvio-padro, usou-se a frmula no polarizada. Esses parmetros sero doravante
denominados descritores estatsticos.
Finalmente, devemos levar em conta que existe uma interdependncia entre a
trade escolhida (segmentao, extrao de caractersticas e classicao) e o resultado obtido (taxa de acerto) do sistema de reconhecimento de notas. Logo, dizer que
uma forma de segmentao melhor ou prefervel outra uma assertiva algo problemtica, uma vez que esse resultado dependente dos demais elementos da trade.
Assim, uma comparao no desempenho do segmento escolhido, em ltima anlise,
somente possvel caso os demais elementos da trade se mantenham inalterados.
43
Captulo 4
Extrao de Caractersticas
Este captulo pretende descrever diversas formas de caractersticas representativas dos segmentos de sinais de udio, obtidos atravs de um dos mtodos descritos
no captulo anterior. Abordamos neste captulo: descritores temporais, caractersticas obtidas sobre a envoltria da nota musical (inspiradas em medidas obtidas
sobre um pulso radar) [19]; descritores de udio usuais (descritores especcos) [2];
coecientes de predio linear (LPC); Line Spectral Frequencies (LSF); coecientes
Cepstrais (CEPSTRUM); coecientes Mel-Cepstrais (MFCC); e formao do vetor
de caractersticas.
Essas caractersticas representativas so usadas pelo mdulo extrator de caractersticas, que responsvel pela obteno de um conjunto de caractersticas
representativas do segmento analisado. O vetor de caractersticas obtido por meio
da concatenao de caractersticas estatsticas (desvio-padro e momento de terceira
ordem) dos segmentos, conforme visto na Seo 3.4, com as novas caractersticas
abordadas nesse captulo.
44
A-
B-
1 Normalmente se adota 90% da intensidade do pico mximo, no entanto tal ponto quando
marcado sobre o
tralling edge
45
C-
D-
Tempo dos 90% do pico: denido como o perodo de tempo entre o primeiro
pico e o ponto de 90% do pico mximo de amplitude marcado sobre o leading
edge do pulso;
E-
Tempo entre pico e vale: denido como o perodo de tempo entre o primeiro
pico e o primeiro vale da modulao do pulso;
F-
G-
Tempo entre vale e segundo pico: denido como o perodo de tempo entre o
primeiro vale e o segundo pico de modulao do pulso;
H-
I-
Droop : denido como o ngulo em radianos entre a linha que liga o segundo
pico ao primeiro pico e a vertical.
Conforme se pode observar, exceto o droop (que uma medida angular) todas
essas caractersticas correspondem a medidas temporais ou de amplitude do sinal.
46
ZCR =
onde
n |sign(F (n))
sign(F (n 1))|
,
2Na
(4.1)
do frame.
RMS =
rP
n
F (n)2
,
N
(4.2)
P
k P (f (k))f (k)
,
SC = P
k P (f (k))
onde
f (k)
k -sima
(4.3)
P (f (k))
o valor de
BW =
P
k
(4.4)
FS =
|P (f (k)) P (f (k 1))|2 .
(4.5)
47
u(n)
duzida no ar ao ser forado atravs das cordas vocais. Tal excitao passa ento por
um ltro
H(z)
de transferncia:
H(z) =
onde
1+
G
PNr
i=1
Nr
ai z i
(4.6)
a ordem do ltro e
ai , i = 1 . . . N r ,
o(n)
s(n) =
N
X
ak s(n k)
(4.7)
k=1
onde o erro de predio
e(n)
s(n)
e o valor real
s(n)2 .
2 A predio pode ser feita utilizando-se outros mtodos de predio, tais como: mtodo da
autocorrelao, covarincia, Burg, etc...
48
4.4
Pela anlise LPC, o preditor da Equao (4.7) pode ser visto como a sada
de um ltro gerador s-plos
H(z) = 1/A(z)
excitado por
u(n),
onde
A(z) = 1 + a1 z 1 + a2 z 2 + + an z N ,
sendo
(4.8)
A(z),
respectivamente, por
(4.9)
(4.10)
u(n)
dado por:
(4.11)
4.3 [27].
Na prtica, antes da computao do cepstrum, a sequncia
u(n) multiplicada
49
4.6
Uma das contribuies da psico-acstica foi a descoberta que o sistema auditivo humano realiza uma anlise espectral de sinais sonoros na qual a resoluo
frequncial no-uniforme. Esta descoberta levou proposio de escalas auditivas (e.g., Mel, Bark e ERB), no lugar de escalas fsicas (em Hz), para a anlise
perceptual de sinais acsticos.
O ponto de referncia entre as escalas mel e Hz foi denido como sendo 1000
mels para o pitch de um tom senoidal puro de frequncia igual a 1 kHz, com potncia
40 dB acima do limiar mnimo da audio humana.
Na Figura 4.4 vemos o mapeamento aproximado entre as escalas mel e Hz,
que analiticamente fornecida por:
f
1+
700
(4.12)
50
4000
3500
3000
2500
2000
1500
1000
500
0
1000
5000
10000
Freque ncia (Hz)
15000
ritmo da energia total das bandas crticas em torno das frequncias mel. Para isso
utiliza-se um banco de ltros triangulares com resposta unitria na sua frequncia
central. No mais, as frequncias centrais dos ltros so espaadas linearmente na
escala Mel. Seus limites (inferior e superior da banda de passagem) coincidem com
as frequncias centrais dos ltros triangulares adjacentes [1].
A principal diferena entre o cepstrum e os coecientes mel-frequency cepstral
que no primeiro a anlise espectral feita com as bandas linearmente espaadas,
enquanto que no segundo as bandas de frequncia so igualmente espaadas conforme a escala mel, aproximando-se mais do processo de anlise realizado no sistema
humano de audio.
Finalmente, para se calcular os MFCC, divide-se o sinal
s(n)
em janelas.
Para cada janela estima-se a magnitude do espectro (na escala Hz), utilizando-se
o mdulo da DFT. Posteriormente cada espectro tem sua magnitude multiplicada
com cada ltro triangular. Ao m desse processo, faz-se o agrupamento dos valores
obtidos em cada canal. Obtm-se assim um coeciente para cada canal. O vetor feito
do logaritmo destes coecientes, mapeado novamente para o domnio do tempo
usando a DCT. A Figura 4.5 representa as etapas necessrias para obteno do vetor
MFCC .
51
52
53
1,2
f(n)
DCT(f(n))
1
f(n)
0,8
0,6
0,4
0,2
0
600
400
200
0
n (amostras)
200
400
600
forma espera-se facilitar a predio linear. Pode-se constatar essa menor variao da
amplitude nas Figuras 4.7 e 4.8, onde mostramos a DCT do segmento de ataque e
do segmento de subida, respectivamente, de uma nota C4 do instrumento Saxofone
Contralto.
Neste momento, podemos nalmente elaborar a Figura 4.9, a qual apresenta
um quadro resumo dos segmentos e dos descritores que sero empregados nessa
dissertao.
54
0,08
Ataque
0,06
0,04
0,02
0
200
400
600
800
1000
1200
1400
1600
1800
2000
1400
1600
1800
2000
n (amostras)
(a)
DCT (ataque)
0,15
0,1
0,05
0
0,05
200
400
600
800
1000
1200
n (amostras)
(b)
Figura 4.7: (a) o segmento de ataque de uma nota C4 de um Saxofone Contralto;
(b) DCT do segmento (a).
55
0,08
Subida
0,06
0,04
0,02
0
500
1000
1500
2000
1500
2000
n (amostras)
(a)
DCT (subida)
0,04
0,02
0
0,02
0,04
500
1000
n (amostras)
(b)
56
57
Captulo 5
Mtodos de Classicao
Este captulo tem como escopo apresentar os mtodos de classicao que
foram empregados nessa dissertao e as transformaes no-lineares aplicadas aos
mtodos de classicao.
Existem diversos mtodos que usualmente so empregados para a etapa de
classicao, e que, de forma geral, podem ser classicados em um dos seguintes
grupos:
K -Vizinhos
O presente trabalho no almeja avaliar todos os possveis mtodos de classicao. Assim, sero abordados 3 mtodos de classicao:
ximos, SVM e Discriminantes Lineares.
K -vizinhos
mais pr-
tratar de um classicador que normalmente encontrado em trabalhos de reconhecimento de padres. Sua popularidade deve-se ao fato de ser um mtodo simples
e, por esse motivo, normalmente encontrado como referncia nos trabalhos para a
demonstrao dos resultados obtidos. O segundo mtodo foi escolhido em funo
58
N ),
no-linear (sobre o vetor de entrada) que mapeia a imagem num espao de dimenso maior (de dimenso
M ),
transformao no-linear feita a classicao, que mapeia a relao entre o conjunto denido pelo espao de caractersticas e o conjunto delimitado pelo espao de
sada, conforme pode se ver na Figura 5.1
K -vizinhos
59
distncia [35]. Assim, este mtodo estima a classe mais provvel de uma dada amostra a ser classicada segundo alguma mtrica de distncia a um conjunto de treinamento formado por amostras cujas classes so previamente conhecidas. Percorre-se
o conjunto de treinamento, calculando a distncia de cada uma de suas amostras em
relao amostra a classicar. Obtm-se ento as
amostra que se deseja classicar, ou seja, os
atribuda quela que foi mais frequente nos
K -vizinhos
K -vizinhos.
seja igual a 1, o
p=2,
v
u n
uX
j
p
(xi Mji )p
Dx = t
(5.1)
i=1
onde
xi
o elemento
Mj
X e Mji
o elemento
do conjunto de treinamento
M.
Alm dessa mtrica tambm foi avaliada uma mtrica conhecida como city-
w
~
= t~x y(~x)
onde t~
x (que pode assumir os valores -1 e 1) a classe da amostra
estimadora da classe. Assim, espera-se que se
60
(5.2)
w
~ 0~x > 0 , a amostra ~x pertena classe
~y (~x) = sign(w0~x)
(5.3)
Para viabilizar a minimizao por mtodos que utilizam a direo do gradiente, substituiu-se a funo sinal na Equao (5.3) pela funo tangente hiperblica.
A mudana se justica, uma vez que esta funo, assim como a funo sinal, possui
sua imagem limitada pelos valores -1,1, sendo, ao contrrio da funo sinal, totalmente diferencivel em todo o seu domnio. Redene-se, ento, a classe da amostra
~x
por:
y(~x) = tanh(w0~x)
(5.4)
Squares (LMS) modicado por uma normalizao [37]. Portanto o passo de iterao
para se obter a convergncia pode ser facilmente obtido, sendo dado por:
w
~ k+1
f
=w
~ k w~
+
(5.5)
onde
f~
= 2(1 y2 )~x
w
~
(5.6)
= (1 ) + x0 x
(5.7)
triz zero e
k,
de cada
a dimenso do vetor de
kM
tanto deste vetor de caractersticas transformado, agora denido pela Equao (5.8)
(5.8)
T
w
~ p = [ (w
~ 1T ) (w
~ 2T ) . . . (w
~ k1
) (w
~ kT ) ]T
(5.9)
k
X
y0 (~x) = tanh(
w
~ iT ~xi )
(5.10)
i=1
Esta transformao no-linear foi usada em particular com o classicador
DLG, de forma que a partir dela pode-se separar classes que antes no eram linearmente separveis. Como se ver mais adiante, ela provocou um aumento na taxa de
acerto das classes.
quina de Vetor Suporte, SVM, (do ingls Support Vector Machine ) . A SVM implementa discriminantes lineares (hiperplanos) num espao obtido por uma transformada do espao de entrada, diferenciando uma classe, a positiva, de outra, a
negativa (uma classicao binria, na sua forma tradicional).
A SVM visa construir um hiperplano que maximize a margem de separao entre os exemplares positivos e os negativos.
62
separador timo neste espao de dimenso mais alta, conforme pode-se ver na Figura
5.1.
As restries que o mapeamento no-linear sofre sero abordadas na Subseo
5.3.2, a qual apresentar alguns mapeamentos aceitveis, tais como o polinomial,
RBF e algumas funes sigmides.
n
X
1 XX
max D(~
) =
k
i j yi yj h~
xi , x~j i,
2 i=1 j=1
k=1
sujeito a:
n
X
(5.11)
i y i = 0
(5.12)
0 i C,
(5.13)
i=1
onde
[39].
n
n
n
X
1 XX
= arg min
i j yi yj h~
xi , x~j i
k
2
i=1 j=1
k=1
63
(5.14)
(5.15)
desde que garanta certas condies, como K ser uma funo simtrica denida positiva, e respeite as condies de Mercer dadas por:
K(x, x0 ) =
am m (x)m (x0 ), am 0
(5.16)
(5.17)
ZZ
d)
: Rd 7 H
Rd .
0
(K(x, x )), pode-se us-la no lugar do produto interno da funo
o que reduziria
3 Ou seja,
g(x)2 dx
nito.
64
amostras, o que continua sendo uma restrio, visto que uma boa aproximao da
distribuio dos dados depende de um grande nmero de amostras.
Assim, o kernel representa o produto interno no espao de caractersticas, e,
a seguir, apresentamos alguns mapeamentos que satisfazem as condies de Mercer.
5.3.2.1 Polinomial
5.3.2.2
(5.18)
(5.19)
kx x0 k2
K(x, x ) = exp
2 2
5.3.2.3
RBF
kx x0 k
K(x, x ) = exp
2 2
0
5.3.2.4
(5.20)
(5.21)
Multi-Layer Perceptron
K(x, x0 ) = tanh(ahx, x0 i + b)
(5.22)
65
n
X
1 XX
k
max D(~
) =
i j yi yj K(~
xi , x~j )
2
i=1 j=1
k=1
n
(5.23)
sujeito a:
n
X
i y i = 0
(5.24)
i=1
0 i C
onde
K(~
xi , x~j )
(5.25)
descritas na Seo 5.3.1. Nesse caso conforme [39] a soluo dada pela Equao
5.26, e a classicao obtida a partir da Equao 5.27.
n
n
n
X
1 XX
k
= arg min
i j yi yj K(~
xi , x~j )
2
i=1 j=1
k=1
h(~x) = sgn(
i yi K(~
xi , ~x) + b)
(5.26)
(5.27)
iSV
onde b representa o bias, e
SV
detalhes sobre esse classicador pode ser encontrado alm das referncias j citadas
nessa seo em [45].
66
Captulo 6
Agrupamentos Hierrquicos,
Abordagens Multiclasse e Estratgias
Neste captulo analisaremos os seguintes tpicos: agrupamentos hierrquicos empregados nessa dissertao; abordagens multiclasse usadas em discriminantes
lineares e mquinas de vetor suporte; e algumas estratgias associadas a essas abordagens para o sistema de reconhecimento automtico de instrumentos musicais. Usaremos o conceito de famlia de instrumentos como sendo constituda de um conjunto
particular de instrumentos musicais denida por um dos agrupamentos hierrquicos discutidos no Captulo 2, e grupo de instrumentos como sendo um conjunto de
instrumentos obtidos por um algoritmo que vise melhorar a sua diferenciao.
67
m, essas famlias de instrumentos, em algumas simulaes, foram agrupadas formando outras famlias, constituda pelos instrumentos de sopro (autas, palhetas,
metais), cordas e percusso.
Assim, para cada uma das bases de dados (MIS, MUMS e RWC) foram
utilizados conjuntos de instrumentos distintos, representando tambm taxonomias
distintas quanto ao agrupamento de instrumentos.
Assim, os agrupamentos contendo 2 e 4 famlias de instrumentos, SC (sopro e
cordas) e MFPC (metais, autas, palhetas e cordas), foram utilizados para o banco
de dados MIS, enquanto que os agrupamentos contendo 3, 4 e 5 famlias, SPC (sopro,
percusso e cordas), MFPC e MFPPC (metais, autas, palhetas, percusso e cordas)
foram utilizados para o Banco de dados RWC e MUMS.
Alm disso, foram criados 3 agrupamentos distintos de instrumentos (denominados INSTRUMENTOS) para cada base de dados e um agrupamento contendo
instrumentos das 3 bases de dados.
Resumindo, foram criados dez agrupamentos para avaliar o desempenho do
sistema. Seis deles representam taxonomias aplicadas famlia de instrumentos e os
outros quatro representam taxonomias aplicadas aos instrumentos individualmente.
Nas Tabelas 6.1, 6.2 e 6.3, apresentamos a descrio dos agrupamentos hierrquicos utilizados nesse trabalho para cada uma das 3 bases de dados, seguida da
Tabela 6.4 que contm a descrio do agrupamento hierrquico reunindo as 3 bases
de dados.
68
Tabela 6.1: Tabela contendo os agrupamentos usados para a base de dados MIS.
Tabela 6.2: Tabela contendo os agrupamentos usados para a base de dados MUMS.
Tabela 6.3: Tabela contendo os agrupamentos usados para a base de dados RWC.
70
contra-todos (one-against-all ). Cada uma delas apresenta particularidades e podemos dizer que uma segue uma losoa hierarquizada e a outra uma losoa direta,
portanto no-hierarquizada.
1. Um-contra-todos: nesse caso (representado pela Figura 6.1) o procedimento
de generalizao do problema de discriminao de 2 classes para o problema
de discriminao multiclasse resolvido atravs de um processo de deciso
em cadeia, como uma rvore binria, onde cada n representa a deciso de
separar uma classe especca contra o restante. Caso a deciso seja a favor da
classe especca, a amostra em teste classicada como sendo desta classe, e o
processo decisrio de classicao para aquela amostra se encerra. No entanto,
caso a deciso seja contrria classe especca, o processo decisrio prossegue
e outra classe especca testada contra o restante, excluindo-se para esse
conjunto (dito restante) todas as classes especcas que o processo de deciso
j testou. Nesse contexto, a raiz representa todos os instrumentos, e as folhas
representam as classes nais a serem identicadas, ou instrumentos caso venhase querer identicar ao nvel de instrumentos. Os ns representam as decises
entre uma classe nal e o conjunto restante.
discrimi-
que esto sendo avaliadas (vide Figura 6.2). A amostra testada em todos os
tada para aquela amostra. A amostra classicada como sendo a classe que
recebeu mais votos. Portanto, nesse caso procura-se identicar diretamente todas as classes de instrumentos (folhas). Nesse contexto, dada uma amostra ela
ser identicada como correspondente classe que apresentar a maior probabilidade. Normalmente essa abordagem costuma apresentar uma taxa mdia
de acerto global maior que a abordagem anterior, conforme podemos constatar
no trabalho de Eronem [46]. Uma das justicativas para que isso ocorra que,
ao utilizarmos a abordagem anterior, caso existam instrumentos com taxas de
acerto baixas, estes iro contaminar a soluo obtida para o treinamento de
suas respectivas famlias (n pai), fazendo com que o nmero de instrumentos
71
que venham a ser classicados para outra famlia (n irmo) aumente, e assim
o erro se propague. A princpio, a desvantagem do mtodo sem hierarquizao
a maior dimensionalidade que se exigir no vetor de caractersticas para que
todas as particularidades de todos instrumentos sejam igualmente apreciadas,
aumentando assim a complexidade computacional e dicultando a obteno
da soluo do classicador na fase de treinamento.
6.3 Estratgias
Nesta seo iremos abordar trs estratgias para o sistema de reconhecimento
automtico com o intuito de se obter as classes pretendidas, ou seja: modelo padro,
modelo hierrquico e um modelo de reagrupamento. Cada uma das formas apresentadas nesta seo apresenta singularidades; no h nessa dissertao a pretenso de
se fazer uma anlise aprofundada de cada uma dessas formas a m de se determinar
qual delas a melhor na maioria dos casos. No entanto, para algumas situaes especcas, uma determinada estratgia poder ter uma desempenho superior (taxa de
72
acerto global) em relao s demais. Esse resultado vlido para um dado conjunto
de treinamento e teste, e limitado a um nmero nito de classicadores e formas de
codicao investigadas.
Em alguns casos, a taxa de acerto global pode ser afetada por suas amostras
ao menos por 2 motivos:
problemas de contaminao:
problemas de confuso:
73
1. Pr-processador;
2. Processador de Caractersticas;
3. Gerador de Classes;
4. Classicador de Instrumentos.
74
1. Pr-processador;
2. Processador de Caractersticas;
3. Gerador de Classes;
4. Classicador de Famlias;
5. Classicadores Especializados de Instrumentos por Famlias.
75
separados dos instrumentos sem vibrato, antes de se identicar o instrumento. Assim, em ambos os ramos aps essa separao aparecero amostras pertencendo ao
mesmo instrumento. Dessa forma, no necessrio que amostras que tenham caractersticas distintas quem agrupadas na mesma classe. Essa possibilidade permite
que se construa classes (famlias) articiais a partir de mtodos de clusterizao,
visando agrupar as amostras que possuam caractersticas comuns. Isso facilitar a
discriminao das classes alterando a taxa de acerto na classicao.
Muitas vezes existem vrias possibilidades de agrupar as amostras em famlias
disjuntas, cada qual formada por um conjunto distinto de instrumentos musicais, de
forma que existem diversas estruturas hierrquicas (rvores) cujas folhas consistem
nos instrumentos que sero classicados.
hierrquica) a ser usada pode fazer parte do problema do modelo hierrquico, uma
vez que se pode agrupar os instrumentos em famlias (ns) de diversas maneiras.
Pelos motivos enumerados acima, essa abordagem pode obter excelentes taxas
de acerto, podendo superar o modelo padro que utiliza uma abordagem direta nohierarquizada, desde que se permita nesse modelo exibilizar o classicador e o vetor
76
1. Pr-processador;
2. Processador de Caractersticas;
3. Gerador de Classes;
4. Classicador de Subtipos de Instrumentos;
5. Reagrupador em Instrumentos.
1 Pode se pensar em usar para cada classe um clusterizador, de forma que cada classe ser
atomizada em subclasses.
77
Figura 6.7: Diferena entre a classicao direta e com reagrupamento com uso de
hiperplanos separadores.
O hi-
78
No entanto, a curva
amostras teste nas regies divergentes . Assim, nesse exemplo, apesar da curva de
separao obtida pelo reagrupamento dos hiperplanos separadores para as subclasses
ser capaz de conseguir distinguir 100% das amostras das classes 1 e 2, no representa
necessariamente uma separao melhor. Para que isso ocorra, basta existirem mais
amostras teste da classe 2 do que da classe 1 nas regies divergentes (cinzas).
Os erros de contaminao e confuso, nesse caso, se do nas amostras dos
subtipos de instrumentos (nvel alm), afetando a classicao nesse nvel.
Nesse
caso, o erro de classicao pode ser carregado para o nvel acima (o nvel de interesse, instrumento), mesmo aps o reagrupamento, caso o erro se d entre subtipos
de instrumentos que pertenam a instrumentos diferentes. Portanto, esses erros s
sero evitados caso as amostras pertenam ao mesmo instrumento. Caso os erros
ocorram entre amostras que pertenam a instrumentos distintos, pode-se pensar em
redenir os instrumentos, de forma que as amostras de subtipos de instrumentos
distintos (em que ocorrem os erros) venham a pertencer ao mesmo grupo (instrumento), o que em princpio pode no ser sempre possvel, face existncia de uma
pr-denio das classes que se pretende classicar (instrumentos) ou o nvel de
confuso e contaminao que o conjunto de dados apresenta.
Assim, os erros causados entre subtipos de instrumentos distintos so eliminados quando reagrupamos os respectivos subtipos num mesmo grupo (instrumento).
Da mesma forma podemos generalizar essa tcnica a nvel de instrumentos, com restries, e determinar que um agrupamento hierrquico adequado pode maximizar a
taxa de acerto global no nvel acima (famlia), abrindo possibilidades de denirmos
formas mais adequadas de agrupamentos de instrumentos visando a maximizao
da taxa de acerto (famlias), e no por convenes denidas pelas caractersticas
dos instrumentos ou por modelos fsicos de produo do som, conforme vimos no
Captulo 2.
Assim, essa abordagem na prtica pode ter um melhor desempenho global
79
80
Parte III
Resultados
81
Captulo 7
Construo de um Procedimento de
Reconhecimento Automtico
Este captulo descreve a metodologia de busca utilizada para obter as solues, a formao dos conjuntos de teste e treinamento, a avaliao do modelo
multiclasse, a anlise do desempenho da envoltria comparado ao da potncia instantnea, a anlise do segmento a ser utilizado, a obteno do vetor de caractersticas, a avaliao dos classicadores e a obteno de um mtodo de reconhecimento
chamado de soluo.
82
que essa dissertao apresenta na busca da soluo tima . Tal clculo pode ser feito
de maneira aproximada da seguinte forma: temos basicamente 2 formatos (envoltria
da potncia instantnea ou a potncia instantnea), 4 codicadores a serem testados,
+ ataque + subida ,
2 3 3 3 = 96768
244742
K -NN <
ininterrupta, ou seja, mais que 1 ano, e sem levar em considerao as variaes sobre
o kernel, mtricas e transformaes do espao de entrada, o tempo de codicao dos
dados e o pr-processamento. Assim, sero adotados alguns critrios para reduzir o
espao de solues visando garantir uma maior viabilidade na busca das melhores
solues.
Neste captulo sero apresentados indicativos para uma dada soluo como
a taxa de acerto global, que representa o nmero de acertos divididos pelo nmero
de amostras testadas, e a taxa de acerto mdia, que representa a mdia das taxas
de acertos entre cada classe testada (como se as classes tivessem sido testadas com
o mesmo nmero de amostras), ou seja, nesse caso cada classe entra com igual peso
no clculo da taxa de acerto mdia. Arbitrariamente se adotar o seguinte critrio:
a taxa de acerto global (mais usual) ser preferida, enquanto que a taxa de acerto
mdia vir como critrio de desempate, uma vez que no se pretende avaliar todas
as possveis combinaes para os agrupamentos com maior nmero de classes.
Assim, o procedimento ser feito atravs de uma heurstica, e seguir uma
sequncia de etapas para a obteno das solues, de forma que a deciso obtida
6 Foi usado um processador DUAL CORE 3,0 Ghz com 1Gb de memria RAM.
83
referncia .
7 Essa congurao bsica no to trivial, mas foi decorrente de um estudo anterior presente
em [33]. Assim, a taxa de acerto alta inicialmente se deve presena dos codicadores.
8 Para todos os casos que esse classicador (SVM) foi usado nessa dissertao a constante C
presente na Equao 5.25 assumiu o valor innito.
84
Nas etapas iniciais iremos denir qual das 3 bases de dados ser empregada
nas anlises que determinaro a melhor soluo. As demais bases de dados sero
novamente utilizadas somente na avaliao da taxa de acerto de seus respectivos
agrupamentos (aps a obteno de um conjunto de solues mais provveis) e ao
nal, na avaliao da capacidade de generalizao do mtodo, quando ento misturaremos as bases de dados.
Devido ao fato de estarmos usando nas anlises um dos sistemas anteriormente denidos, importa ressaltar que sempre teremos resultados parcialmente verdadeiros, embora esses resultados sejam usados como a melhor escolha no tocante
reduo do espao de solues, o que no impede que esses resultados obtidos possam vir a ser verdadeiros para alm do escopo no qual eles se mostraram verdadeiros
(conforme as simulaes realizadas).
tremolo, staccato, etc...), inclusive para as suas variaes no nvel dinmico (Forte,
Mezzo e Piano ). A partir de cada agrupamento resultante das subdivises anteriores,
as notas foram ordenadas segundo a tessitura do instrumento (em ordem crescente
de pitch ).
Para teste foram sorteadas amostras na regio central da tessitura de cada
instrumento, de forma que os 10% iniciais e os 10% nais da tessitura foram excludos, restando, portanto, 80% da regio central. Dessa regio central sortearam-se
85
para cada subdiviso 10% das amostras para formarem o conjunto de teste .
As
amostras restantes foram usadas para treinamento. Tal critrio foi adotado tendo
em vista que a regio central da tessitura de cada instrumento a regio para a qual
o instrumento musical foi melhor projetado, e portanto onde se espera encontrar
seu maior uso. Assim, avaliar o desempenho com amostras sorteadas dessa regio
central representa avaliarmos o desempenho do classicador onde se espera ocorrer
uma maior frequncia das notas numa distribuio real.
10
Tabela 7.1: Tabela contendo os resultados das abordagens multiclasse nas 3 bases
de dados usando o sistema de referncia B.
9 Foram feitos 3 sorteios para cada base de dados, e optou-se por aquele conjunto de amostras
que apresentou uma taxa de acerto intermediria a partir do sistema de referncia A. A maior
variao obtida foi em torno de 3%.
86
11
do modelo um-contra-todos
11 Na implementao realizada para o modelo um-contra-todos vericou-se primeiro qual o desempenho de cada classe contra o restante; posteriormente ordenou-se esses resultados formando
a deciso hierrquica na rvore binria.
87
Nas Tabelas 7.3 e 7.4 apresentamos as taxas de acerto para os bancos de dados
MUMS e RWC em alguns agrupamentos hierrquicos usando o mesmo sistema de
reconhecimento automtico empregado nas simulaes que constam na Tabela 7.2.
Tabela 7.3: Tabelas da base de dados MUMS representando agrupamentos hierrquicos versus formato do sinal.
Tabela 7.4: Tabelas da base de dados RWC representando agrupamentos hierrquicos versus formato do sinal.
88
12
13
, como
Dessa forma,
14
ou SVM. Ao nal, para as solues que apresentarem melhores resultados, avaliaremos os demais agrupamentos em suas diversas bases de dados.
12 Esse resultado foi tambm vericado para os codicadores LPC e MFCC em todos os conjuntos
de amostras testados.
obter a soluo.
89
nn1
classicadores para
2
15
mento privilegiado
16
Na Tabela 7.5 apresentamos os resultados obtidos para o segmento intermedirio do modelo IMF usando o sistema de reconhecimento automtico de instrumentos musicais descrito na seo anterior para a base de dados MIS. Variou-se o
limiar superior para os valores 10%, 30%, 50%, 70% e 90% na expectativa de encontramos o limiar que dene o segmento mais signicativo para a discriminao
das classes. Avaliaram-se os codicadores LSF, MFCC e LPC, para vericar uma
possvel persistncia na escolha do limiar.
Tabela 7.5: Tabela para a base de dados MIS contendo a taxa de acerto para o
segmento intermedirio para o modelo IMF.
16 Dessa forma, o resultado dessa seo foi avaliado somente para o classicador 1-NN.
90
Tabela 7.6: Tabela para a base de dados RWC contendo a taxa de acerto para o
segmento intermedirio para o modelo IMF.
17
base de dados MIS para os segmentos de ataque (modelo ADSR), subida (modelo
18
IMF)
Tabela 7.7: Tabela para a base de dados MIS contendo a taxa de acerto nos segmentos iniciais.
91
O mesmo procedimento feito para montar a Tabela 7.7 foi feito para a base
de dados RWC apresentado na Tabela 7.8.
Tabela 7.8:
segmentos iniciais.
19
vos
20
19 Os resultados desse trecho para o codicador LSF foram considerados razoveis quando comparados aos resultados obtidos no segmento intermedirio ou no segmento de ataque.
92
Os codicadores
Q(z)
P (z)
vistos nas Equaes (4.9), (4.10) na Seo 4.4, portanto de natureza diversa
dos coecientes MFCC e LPC. Se por acaso estabelecermos que usaremos 16 ngulos
LSFs, devemos levar em conta que toda soluo complexa um par conjugado, e
sabendo que um par conjugado possui o mesmo ngulo (a menos do sinal), devemos
ento trabalhar com o dobro de solues (32) para obtermos os 16 ngulos pretendidos. Logo, a ordem do polinmio para obtermos as solues LSFs o dobro da
ordem dos polinmios para obtermos as solues LPC e MFCC. Assim, comparaes
diretas entre a taxa de acerto obtida com uma soluo usando LSFs e outra usando
LPC ou MFCC (xado o nmero de coecientes) sero feitas nessa dissertao, apesar dessa diferena no grau do polinmio. Caso se queira compensar essa diferena,
devemos avaliar as solues com 32 coecientes LPCs e MFCCs contra a soluo
contendo 16 coecientes LSFs.
Nesta seo tambm sero avaliadas as caractersticas estatsticas de ordens
2, 3 e 4 do trecho da amostra, os descritores especcos de udio tais como ZCR,
RMS, SC, ux, BW, e as caractersticas temporais obtidas a partir da envoltria da
potncia instantnea do sinal, tais como largura do pulso, tempo de subida, tempo
de descida, droop, etc.
A implementao do DLG empregada nessa dissertao utilizou dois outros
critrios de parada alm do erro a ser minimizado, um a partir do nmero mximo
de iteraes (6000) e outro que estima se variao do erro absoluto menor que um
nmero arbitrariamente pequeno.
93
Tabela 7.9: Estatstica das taxas de acerto para todos os codicadores empregados
nessa dissertao com o classicador 1-NN.
94
21
Tabela 7.10: Estatsticas com as taxas de acerto para o classicador SVM (kernel
gaussiano com desvio padro unitrio).
22
, por-
21 Esses resultados, onde aparece um pior desempenho no uso de 8 coecientes, foram tambm
observados em outras simulaes envolvendo outros conjunto de amostras de teste.
22 No entanto, para todos os casos aqui constantes foram feitas simulaes que aparecem segundo
95
Tabela 7.11: Estatsticas com as taxas de acerto para o classicador DLG (transformao de potenciao de ordem 2).
96
Tabela 7.13: Tabela com os melhores resultados para o classicador 1-NN (mtrica
euclideana) com caractersticas temporais.
Tabela 7.14: Melhores resultados para o classicador SVM (kernel gaussiano) com
caractersticas temporais.
97
98
99
m3
divergncia foi a presena ou no das caractersticas temporais, onde cada classicador apresentou um quadro diverso.
Pode-se vericar no quadro 7.21 uma sntese das melhores solues.
100
Tabela 7.22: Tabela contendo a correlao das variveis para o banco de dados MIS.
Conforme pode-se observar nas Tabelas 7.22, 7.23 e 7.24 existem 3 correlaes com alta taxa de similaridade (superior a 95%) que so comuns a todas as bases
23
, BW com SC, e
m3
com
m4 .
Simulaes feitas
retirando-se uma das variveis que apresentaram alto grau de correlao para SVM
e DLG levaram a pequenas variaes na taxa de acerto (entre 1% e 2,5%), reduzindo a taxa de acerto, o que indica que essas variveis, apesar de possurem entre
si um alto grau de correlao, esto contribuindo positivamente no desempenho dos
23 Essas medidas representam basicamente a mesma informao, uma apresenta o desvio polarizado e a outra o desvio no polarizado.
101
Tabela 7.23:
MUMS.
Tabela 7.24:
RWC.
classicadores empregados. Dessa forma, no se far o descorrelacionamento das variveis nessa dissertao, deixando tal procedimento para trabalhos futuros quando
se pretende avaliar tambm outros classicadores, como, por exemplo, redes neurais.
A seguir aplicou-se uma ferramenta de anlise de componentes principais
(PCA) para vericarmos se existem variveis linearmente dependentes das demais
102
variveis. Em outras palavras, vericamos se h redundncia suciente para a reduo da dimenso do espao de entrada. Na Tabela 7.25 apresentamos as primeiras
10 observaes da matriz dos dados (da base de dados MIS) contendo as observaes
(descritas em variveis temporais, descritores especcos de udio e momentos do
segmento avaliado) na representao do espao de componentes principais.
Caso
K -NN,
103
mos para 3 ou 5. Essas avaliaes sero feitas somente para as melhores solues
obtidas para cada codicador a cada classicador. Ao nal, cada classicador ter 4
possibilidades (3 com uso de codicadores e uma sem uso de codicador) de solues
otimizadas frente s variaes a serem feitas para cada classicador, perfazendo um
total de 12 candidatos.
Assim, seguindo o mtodo proposto visando reduzir o nmero de possibilidades a serem analisadas, apresentam-se as melhores solues obtidas para cada
classicador (Tabelas 7.26, 7.27, 7.28) em funo de algumas variaes investiga-
24
das
K -NN.
24 As solues marcadas com * diferem do que apareceram inicialmente na Tabela 7.10 porque
para essas solues foi feito o escalonamento estatstico.
104
105
Tabela 7.29: As melhores solues obtidas para cada codicador em cada classicador.
106
Captulo 8
Avaliao da Taxa de Acerto
Este captulo contm a avaliao da taxa de acerto para o agrupamento
MFPC, a avaliao da taxa de acerto para o agrupamento INSTRUMENTO e a
estimativa da taxa de acerto do classicador proposto. Esta ltima tem por objetivo avaliar o desempenho do mtodo de reconhecimento automtico elaborado nos
captulos anteriores, usando amostras reservadas para teste pertencentes s 3 bases
de dados (MIS, MUMS e RWC).
As amostras da base de dados MUMS s aparecero na Seo 8.3, uma vez que
essa base de dados possui poucas amostras para alguns instrumentos. As amostras
da base de dados RWC sero usadas a partir da Seo 8.2.
Assim, apresentare-
mos alguns resultados obtidos inicialmente para as amostras da base de dados MIS,
variando-se os agrupamentos e as estratgias, depois contendo amostras da base de
dados RWC para o agrupamento instrumento, e nalmente contendo amostras da
base de dados MUMS, quando faremos uma estimativa da taxa de acerto do classicador proposto. Todas as solues usadas foram obtidas da Tabela 7.29 presentes
no captulo anterior.
107
tanto, essas estratgias alternativas aparecem nessa dissertao somente como uma
avaliao exploratria dessas estratgias (comprovando que apresentam taxas de
acertos globais diferentes para a mesma soluo com o mesmo agrupamento), j que
no se pretende avaliar para essas estratgias (alternativas) a taxa de acerto para
outros agrupamentos alm do agrupamento MFPC.
O estudo feito sobre o agrupamento MFPC a partir do segmento central do
modelo IMF, apresentado no captulo anterior, determinou quais eram as melhores solues.
reconhecimento automtico, formados por 8 solues com variaes sobre o classicador DLG, 12 solues com variaes sobre o classicador SVM, 20 solues com
variaes sobre o classicador
K -NN,
m3
m4 ),
coecientes (LSF, MFCC e LPC), 3 quantidades de coecientes (16, 24, e 32), 3 classicadores (DLG, SVM e
K -NN)
108
qual, por sua vez, foi ligeiramente melhor que a SVM. No entanto, se incluirmos as 40
solues que no constam nessas tabelas, o classicador SVM apresentou a soluo
com melhor desempenho. Portanto, apesar das amostras demonstrarem uma ligeira
preferncia para o classicador
K -NN,
SVM e DLG.
109
Tabela 8.5: Matriz de confuso para o agrupamento MFPC, usando a soluo 10.
K -NN.
3 somente para as solues 6 e 10, que foram ilustradas na Seo 8.1.1, as quais
utilizam os classicadores SVM e DLG, respectivamente.
Conforme se pode observar na matriz de confuso ilustrada pela Tabela 8.6,
a taxa de acerto obtida para essa estratgia foi superior taxa de acerto obtida
usando o modelo padro, conforme pode se ver na matriz de confuso apresentada
pela Tabela 8.5, comprovando o fato de que as estratgias podem obter desempenhos
distintos.
J a soluo 6 combinada com a estratgia 3 (conforme pode se ver na Tabela 8.7) apresentou um resultado ligeiramente inferior ao resultado obtido por essa
110
No entanto, se combinarmos a
1 Isso tambm foi verdade para as as demais solues usando a estratgia 1, conforme se encontra
ilustrado na Tabela 7.29.
2 A taxa de acerto para a estratgia 3 foi de 99,2%, o mesmo valor foi obtido para a soluo 2.
111
a Tabela 8.8.
Evidentemente que, devido ao fato da taxa de acerto ter sido alta para todas
as estratgias, podemos dizer que elas nesse caso se equivalem.
112
No entanto, foi
possvel constatar, para esse caso especco, pequenas variaes na taxa de acerto,
as quais constatam diferenas entre suas abordagens.
K -NN.
J as
3 Esse corte contorna um procedimento guloso, portanto existe a possibilidade de uma dessas
solues apresentar resultados melhores.
113
Soluo #
Taxa de Acerto
soluo 1
95,6 %
soluo 2
94,8 %
soluo 5
94,8 %
soluo 6
96,4 %
soluo 9
92,7 %
soluo 10
94,0 %
Tabela 8.11: Tabela contendo as solues e suas taxas de acerto para o agrupamento
INSTRUMENTO a partir das da base de dados MIS.
Soluo #
Taxa de Acerto
soluo 1
86,8 %
soluo 2
94,1 %
soluo 5
95,4 %
soluo 6
89,8 %
Tabela 8.12: Tabela contendo as solues e suas taxas de acerto para o agrupamento
INSTRUMENTO a partir das da base de dados RWC.
classicadores.
A escolha de
se d,
No entanto, arbi-
4 O domnio da funo a ser maximizada nesse caso discreto. Por exemplo, caso se use um
espao simplicado composto por
N = {1, 3},
114
{1, 2, 5, 6},
devero ser
trariamente adotou-se um critrio mais simples para avaliar essa hiptese, ou seja,
deniu-se o mesmo
N =3
solues para cada uma das bases de dados . A seguir apresentamos os resultados
investigadas as seguintes possibilidades:
5 Solues 1, 5 e 6 para base de dados MIS; solues 2, 4 e 5 para a base de dados RWC.
115
obtidos para as bases de dados MIS e RWC, respectivamente, presentes nas matrizes
de confuso das Tabelas 8.17 e 8.18:
Somente para ilustrarmos, as taxas de acerto obtidas para o agrupamento
116
117
a partir desta seo a denir o classicador proposto como sendo formado por um
banco de classicadores composto pelas 4 melhores solues (1, 2, 5 e 6) obtidas para
o agrupamento MFPC, a m de possibilitar que a mesma soluo seja empregada independentemente da base de dados escolhida. Tal abordagem no foi encontrada na
literatura pesquisada nessa dissertao. Na Figura 8.1 apresentamos a arquitetura
do classicador proposto nessa dissertao, onde os processos em amarelo representam o pr-processamento, em branco representam a codicao (e obteno do vetor
de caractersticas) e em verde representam a classicao. As abreviaes E.D. e
118
119
numa base de dados em outra (sem retreinar). O problema dessa abordagem que,
em nosso caso, existem diferenas signicativas entre as bases de dados, ou seja,
na forma de deteco, na presena ou no de um rudo de fundo, alm do fato
de apresentarem distribuies das amostras por instrumento diversas. Todas essas
diferenas quando combinadas podero ocasionar variaes signicativas na taxa de
acerto global.
Dependendo da escolha que se faz das amostras (contendo ou no os problemas confuso e contaminao anteriormente referidos), estas iro contribuir ou para
o treinamento do classicador ou para serem usadas como teste. Portanto, para cada
escolha feita a taxa de acerto obtida pode variar, em funo das contribuies que
cada amostra dar para o classicador, seja para denir a classe, seja para estimar
a taxa de acerto. Assim, independentemente de se manter constante o percentual
escolhido para o treinamento, a taxa de acerto poder variar.
Uma forma de contornar esse problema e se obter uma estimativa da taxa de
acerto mais adequada escolhermos um conjunto de amostras (teste e treinamento)
capaz de obter uma medida razovel da capacidade que o classicador tem para
discriminar as classes que ele se prope a classicar.
6 Caso haja amostras em quantidade sucientes no conjunto de treinamento para que essa medida
no represente uma distoro em relao distribuio real.
120
(80%). Tal procedimento est melhor detalhado na Seo 7.2, e tem como conceito
central a expectativa de uso das notas de cada instrumento ocorrer de forma desigual
(na prtica), ou seja, espera-se que as notas da regio central de cada instrumento
musical tenham uma maior probabilidade de surgimento. Portanto, o conjunto de
teste sorteado, levando em conta essa preferncia, ter uma maior representatividade. A seguir descrevemos os dois modos nos quais foram avaliadas as taxas de
acerto.
1. MODO 1:
Os resultados obtidos aparecem nas Tabelas 8.22 e 8.23, onde cada percentual
apresentado representa um conjunto de amostras distinto, uma vez que, para cada
percentual, foi feito um novo sorteio.
Independentemente do percentual de treinamento, em todos os casos a soluo obtida pelo banco de classicadores foi sempre melhor que a melhor soluo
obtida individualmente (por cada classicador), o que valida essa abordagem e a
escolha das solues 1, 2, 5 e 6 para formar o classicador proposto, considerando
121
da amostra
Todas as estimativas
7 Essas armaes obviamente esto restritas s solues pesquisadas nessa dissertao, por isso
as armaes tem carter relativo.
122
tanto contendo reverberaes . Assim, preferiu-se usar essa estimativa mais rigorosa
para representar a capacidade de classicao do conjunto contendo as 3 bases de
dados caso no se conhea as caractersticas das amostras (com reverberao ou
no). Optou-se pelo ponto de 80% das amostras porque atende ao primeiro critrio
de estar entre os percentuais de 90,42% e 95,76%.
Logo, uma estimativa razovel para a taxa de acerto do classicador, caso ele
venha ser treinado com 80% das amostras, cerca de 92% se o conjunto de amostras
a serem testadas contm reverberao; caso contrrio a estimativa da taxa de acerto
de 94% mais consistente para classicar os 20 instrumentos.
Como mostrado no Apndice B, estes ndices so coerentes, superando o
estado da arte em reconhecimento de instrumentos para o agrupamento contido
nesse apndice.
9 Inclusive a prpria base de dados indica o tempo de reverberao presente nas gravaes.
123
Captulo 9
Resultados frente s Misturas
Instantneas
Os mtodos propostos nesse captulo visam avaliar o desempenho do classicador quando h superposio temporal, seja entre instrumentos, seja entre estes
e rudos.
classicar notas isoladas pode ser facilmente generalizado para msicas monofnicas (gravaes com uma nica fonte), bastando para isso treinar os classicadores
com pequenos trechos obtidos a partir de msicas previamente eleitas (logicamente
o vetor de caractersticas dever ser refeito para se ter um melhor desempenho).
Assim, o banco de amostras (tanto para teste quanto para treinamento) nessa abor-
124
dagem dever ser construdo a partir de pequenos trechos retirados de msicas que
compem a base de dados empregada.
125
126
127
Amplitude
1
0
1
0
0,2
0,4
0,6
0,8
1,2
1,4
1,6
1,8
Tempo (amostras)
(a)
Amplitude
1
0
1
0
0,5
1,5
2,5
Tempo (amostras)
(b)
128
duas fontes e que apenas uma delas seja a dominante, podemos associar esta raia a
esta fonte, impondo que a da outra seja zero (isto deve ser feito quadro-a-quadro).
A proposta nessa seo vericar a viabilidade deste tipo de tcnica, supondo que
temos acesso s fontes durante a separao.
Este acesso s fontes permite-nos escolher a fonte qual associaremos uma
dada amostra (uma raia num certo quadro) de forma tima. Isto signica que estamos trabalhando no universo do melhor caso possvel que esta tcnica de separao
de fontes permite. Em outras palavras, analisaremos o melhor desempenho (limitante superior) que o reconhecimento de instrumentos pode ter nesta congurao.
Seja uma amostra
S2 (f, t) da fonte 2,
X(f, t)
da mistura.
possvel estimarmos
Conhecendo
S1 (f, t)
da fonte 1, e
No mascaramento Hard
caso
ento
S1 (f, t) = X(f, t)
S2 (f, t) = 0;
caso
ento
S1 (f, t) = 0
S2 (f, t) =
X(f, t);
No mascaramento Soft (suave) feita uma ponderao pela soma, ou seja,
S1 (f, t) =
129
0,8
0,6
0,4
Amplitude
0,2
0
0,2
0,4
0,6
0,8
Sinal de udio
1
6
8
Tempo (amostras)
10
12
14
5
x 10
de classicao.
Essa tcnica necessariamente precisar de algoritmos de extrao de notas
130
X(f, t)
Dessa
131
Esse algo-
ritmo funciona bem na maioria dos casos, requerendo somente algumas adequaes
para os casos em que o cenrio gravado possua uma baixa SNR . Assim, neste caso
tambm foram vericados alguns algoritmos que comumente so sugeridos na literatura. Foram implementados, alm do mtodo anteriormente descrito, outros dois
mtodos (usando a envoltria RMS, e visando a deteco da
f0
ou pitch ) presentes
f0 .
SN R = 10 log10
a potncia do rudo.
132
Ps
Pr
, onde
Ps
potncia do sinal e
Pr
Env. da Pi()
Env. Pi()
Env. da Pi()
0,1
Pitch = 422.0096
0,05
0
200
400
600
800
1000
Tempo (segmentos)
(a)
1200
1400
1600
0,1
Pitch = 30.0102
0,05
0
200
400
600
800
1000
Tempo (segmentos)
(b)
1200
1400
1600
0,1
Pitch = 390
0,05
0
200
400
600
800
1000
Tempo (segmentos)
(c)
1200
1400
1600
Figura 9.3: Identicao da nota pelo Pitch : (a) Mtodo da Correlao; (b) Mtodo
dos coecientes cepstrais; (c) Mtodo de acompanhamento da
f0 .
133
9.5 Resultados
Foram escolhidos 11 instrumentos das msicas monofnicas, que sero misturadas para formarem as msicas polifnicas que pretendemos investigar, conforme
o padro abaixo:
1. Instrumentos de Sopro (6):
Saxofone Contralto, Saxofone Soprano, Trompa, Obo, Flauta e Fagote.
134
135
Assim, o nmero de fontes varia entre 2 e 19. A partir desse ponto foi usado
o algoritmo de extrao de notas, combinado com o algoritmo separador de fontes
(SF). Assim, se espera que aps o SF tenhamos sequncias monofnicas, pertencentes
a fontes distintas. Para cada sequncia o algoritmo extrator de notas identicar as
notas que compem a sequncia.
Aps a obteno das notas, essas foram codicadas em 3 formas distintas, que
comporo os padres de extrao de caractersticas de melhor desempenho obtidos
no estudo do classicador, conforme mostrado abaixo:
m3
(soluo
2);
m3
(soluo 5).
136
Os nmeros que
Tabela 9.1: Taxa de acerto (Tx Acerto) das fontes para misturas polifnicas.
Tabela 9.2: Taxa de acerto (Tx Acerto) das fontes para misturas polifnicas.
137
Tabela 9.3: Taxa de acerto (Tx Acerto) das fontes para misturas polifnicas.
Obser-
vando as Tabelas 9.1 a 9.5 podemos vericar que para at 6 fontes houve estimao
correta de todos os instrumentos presentes na mistura . Acima de 6 fontes, dependendo da origem das fontes na composio da mistura, ocorre erro de ao menos uma
3 Na Tabela 9.1 o sombreamento no identica propriamente um erro, mas indica que houve
uma segunda estimativa para outro instrumento com igual probabilidade que a estimativa correta.
138
estimativa.
As Tabelas 9.6 a 9.11 contm os resultados obtidos para ambas as bases de
dados usando o mtodo de identicao da fonte numa sequncia polifnica sem o
uso de SF.
Conforme pode ser observado nas Tabelas 9.6 a 9.11, as duas estimativas com
maior frequncia se mostraram corretas para misturas com at 5 fontes. Eventualmente aparece na coluna Fontes o instrumento denominado Outros que consiste
de vrios insturmentos. Em todos esses casos (Outros), o instrumento mais votado
139
cou abaixo de 8,33%. Assim, mesmo que no se tenha um bom algoritmo extrator
de notas, possvel usar esse modelo para identicar as fontes de misturas com
sequncias polifnicas (formadas a partir das bases de dados MIS e RWC) quando
as misturas so formadas por apenas duas fontes.
complexidade para esses casos, uma vez que dispensa o uso dos algoritmos SF.
140
sinal interferncia)
entre 10 e 20 dB.
Foi escolhida arbitrariamente uma mistura contendo notas de todos os instrumentos musicais (19 fontes distintas) das duas bases de dados para servir de sinal
interferente. Assim, o sinal interferente no um sinal especco de um instrumento
particular, o que poderia suscitar dvidas em relao a um possvel favorecimento
ou no da interferncia sobre o sinal.
A seguir apresentamos o padro do sinal interferente e do rudo branco usados
para uma SIR e uma SNR iguais a 10 dB para um sinal polifnico.
Nas Figuras 9.4 e 9.5, o primeiro grco representa o sinal contaminante, o
segundo grco o sinal original e o terceiro grco ilustra o sinal contaminado.
Amplitude
sinal interferente
0,2
0
0,2
Amplitude
sequencia monofnica
6
n (amostras)
6
n (amostras)
10
12
5
x 10
0,5
0
0,5
Amplitude
6
n (amostras)
10
12
5
x 10
0,5
0
0,5
10
12
5
x 10
Nas Figuras 9.6 a 9.13 apresentamos alguns resultados, sendo que cada instrumento possui dois grcos. Um contm o erro sem o separador (curva azul), em
que o rudo ou o sinal interferente no foi retirado e o outro contm o erro com
separador (curva vermelha), em que o rudo ou o sinal interferente foi retirado.
Ps
10 log10
Ps
Pi
a potncia do sinal.
141
, onde
Pi
Amplitude
rudo branco
0,2
0
0,2
Amplitude
sequencia monofnica
6
n (amostras)
6
n (amostras)
10
12
5
x 10
0,5
0
0,5
Amplitude
6
n (amostras)
10
12
5
x 10
0,5
0
0,5
0
10
12
5
x 10
142
1
Erro mdio sem separador
Erro na estimativa da fonte
Erro Medio
0,8
0,6
0,4
0,2
0
10
12
SIR
(a)
14
16
18
20
1
Erro Medio
0,8
0,6
0,4
0,2
0
10
12
SIR
(b)
14
16
18
20
Figura 9.6: Erros estimados na contaminao com sinal interferente: (a) Clarinete
Bb sem separador e (b) Clarinete Bb com separador.
1
Erro mdio sem separador
Erro de estimao da fonte
Erro Medio
0,8
0,6
0,4
0,2
0
10
12
SIR
(a)
14
16
18
20
1
Erro mdio com separador
Erro de estimao da fonte
Erro Medio
0,8
0,6
0,4
0,2
0
10
12
SIR
(b)
14
16
18
20
Figura 9.7: Erros estimados na contaminao com sinal interferente: (a) Saxofone
Soprano sem separador e (b) Saxofone Soprano com separador.
143
1
Erro Medio
0,8
0,6
0,4
0,2
0
10
14
16
18
SNR
(a)
20
22
24
26
1
Erro mdio com separador
Erro de estimativa da fonte
Erro Medio
0,8
0,6
0,4
0,2
0
10
12
14
16
18
SNR
(b)
20
22
24
26
Figura 9.8: Erros estimados na contaminao com rudo branco: (a) Clarinete Bb
sem separador e (b) Clarinete Bb com separador.
1
Erro Medio
0,8
0,6
0,4
0,2
0
10
14
16
18
SNR
(a)
20
22
24
26
1
Erro mdio com separador
Erro de estimativa da fonte
Erro Medio
0,8
0,6
0,4
0,2
0
10
12
14
16
18
SNR
(b)
20
22
24
26
Figura 9.9: Erros estimados na contaminao com rudo branco: (a) Saxofone Soprano sem separador e (b) Saxofone Soprano com separador.
fonte.
dados, o erro total em funo da SNR e SIR para todos os instrumentos usados na
base de dados MIS e RWC.
144
1
Erro sem separador
Erro com separador
0,9
0,8
Erro Medio
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
10
12
14
16
18
SNR
20
22
24
26
Figura 9.10: Erro do classicador para misturas contaminadas com rudo branco,
para amostras provenientes da base de dados MIS.
145
1
Erro sem separador
Erro com separador
0,9
0,8
Erro Medio
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
10
12
SIR
14
16
18
20
Figura 9.11: Erro do classicador para misturas contaminadas com sinal interferente,
para amostras provenientes da base de dados MIS.
1
Erro sem separador
Erro com separador
0,9
0,8
Erro Medio
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
10
12
14
16
18
SNR
20
22
24
26
Figura 9.12: Erro do classicador para misturas contaminadas com rudo branco,
para amostras provenientes da base de dados RWC.
146
1
Erro sem separador
Erro com separador
0,9
0,8
Erro Medio
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
10
12
SIR
14
16
18
20
Figura 9.13: Erro do classicador para misturas contaminadas com sinal interferente,
para amostras provenientes da base de dados RWC.
que, independentemente dos bons resultados obtidos com o uso do separador para
SNR maiores que 20 dB ou SIR maiores que 6 dB, a taxa de acerto passa a ter um
salto qualitativo a partir desse ponto.
J o uso do separador, para todas as SNRs simuladas, no resultou em erro
com valor inferior a 10%, que seria o valor esperado caso no houvesse contaminao,
indicando que o algoritmo SF teve diculdades em separar o sinal do rudo branco.
J em relao contaminao com sinal interferente, o uso do separador
de fontes garantiu uma taxa de erro inferior a 10% desde o incio, que aproximadamente o erro do classicador, explicando porque o erro (com o uso do SF)
praticamente no variou com a SIR.
Portanto, o uso do separador mostrou-se eciente para sinais interferentes, e
garantiu uma reduo na taxa de erro para em torno de 50 % para ambas as bases
de dados quando os sinais so submetidos a rudo branco.
147
Captulo 10
Resultados frente s Misturas
Convolutivas
Na prtica, as misturas do sinal com rudo (ou outros sinais) ocorrem de
forma convolutiva sendo que o conjunto dos sistemas de mistura e separao pode
ser classicado em 4 topologias bsicas: SISO (single input and single output ), SIMO
(single input and multiple output ), MISO (multiple input and single output ) e MIMO
(multiple input and multiple output ).
caso pode servir para separar duas fontes pontuais de sinais (podendo ser uma delas
um sinal interferente).
cada uma das fontes. Um microfone capta os sinais das fontes somados, cada qual
distorcido de forma diferente, j que as posies das fontes so distintas.
Assim,
podemos modelar a distoro de cada fonte por um ltro FIR com comprimento
148
Na Figura 10.1,
j -sima
fonte e a
i-sima
hij
a funo de transferncia
x1 (n)
x2 (n)
representam os sinais captados pelos microfones, os quais podem ser expressos como:
(10.1)
(10.2)
onde * signica convoluo. Num formato matricial, podemos reescrever as Equaes (10.1) e (10.2) na seguinte forma:
s (n)
x (n)
h (n) h12 (n)
1 = 11
1
s2 (n)
h21 (n) h22 (n)
x2 (n)
onde
e
wij
(10.3)
y1 (n)
y2 (n) representam as estimativas das fontes obtidas aps a separao, podendo ser
expressas como:
(10.4)
(10.5)
ou na forma matricial:
x (n)
w (n) w12 (n)
y (n)
1
1 = 11
x2 (n)
w21 (n) w22 (n)
y2 (n)
149
(10.6)
Conforme [50, 51], a escolha ideal dos ltros de separao (a menos de eventuais constantes de escalamento) dada por:
(10.7)
x1 (n) e x2 (n) conforme as Equaes (10.1) e (10.2) nas Equaes (10.4) e (10.5) para
termos:
y1 (n) = [w11 (n) h11 (n) + w12 (n) h21 (n)] s1 (n)
+ [w11 (n) h12 (n) + w12 (n) h22 (n)] s2 (n)
y2 (n) = [w21 (n) h12 (n) + w22 (n) h22 (n)] s1 (n)
+ [w21 (n) h11 (n) + w22 (n) h21 (n)] s2 (n)
Para que ocorra a separao queremos que
de
s1 (n),
y2 (n)
y1 (n)
s2 (n).
(10.8)
(10.9)
(10.10)
(10.11)
w11 (n) = h22 (n) e w12 (n) = h12 (n) ou w11 (n) = h22 (n) e w12 (n) = h12 (n),
e para a Equao (10.11) so:
w21 (n) = h21 (n) e w22 (n) = h11 (n) ou w21 (n) = h21 (n) e w22 (n) = h11 (n),
150
(10.12)
ou
(10.13)
y1 (n)
y2 (n)
h (n) h12 (n)
h (n) h12 (n)
h (n) h12 (n)
w (n) w12 (n)
= 22
11
11
11
h21 (n) h22 (n)
h21 (n) h11 (n)
h21 (n) h22 (n)
w21 (n) w22 (n)
(10.14)
para constatarmos que:
y1 (n)
h22 (n) h11 (n) h12 (n) h21 (n)
s1 (n)
y2 (n)
h22 (n) h11 (n) h12 (n) h21 (n)
s2 (n)
(10.15)
Assim, ocorre uma distoro do sinal original nas estimativas obtidas por um
fator de distoro
t(n)
dado por:
y1 (n)
y2 (n).
(10.16)
o classicador para estimarmos o instrumento a partir de cada uma das sequncias monofnicas obtidas aps a separao, faremos uma correo nessa distoro
causada pelo mtodo de separao.
aumentar a taxa de acerto do classicador. Usualmente tal procedimento denominado derreverberao ou deconvoluo. Aps a obteno das estimativas
y2 (n)
t(n).
151
y1 (n)
(10.17)
(10.18)
t(n)
igual a
e o comprimento de
S1 (k)
S2 (k)
Y1 (k) = Y2 (k)
N M + 1.
No entanto, devemos ter o cuidado de observar que as equaes acima podem ser
reescritas conforme as Equaes (10.19) e (10.20):
(10.19)
(10.20)
N.
(k) =
(k)
1
,
DF T (t(n), N )
como:
(10.21)
T (k),
e, combinando com as
(10.22)
(10.23)
N M +1
primeiras
N M +1
s1 (n)
s2 (n)
e no
amostras de
s1 (n)
e de
s2 (n).
152
SDR = 10 log10
PN
PN
i=1
onde
s(i)
representa o sinal e
y(i)
i=1 |s(i)|
|s(i) y(i)|
(10.24)
equivalente ao erro RMS numa escala logartmica, conforme pode ser observado na
Figura 10.3.
Logo,
Portanto, teremos:
153
(i, j)
(j, i)
diretamente sobre os coecientes da matriz de mistura H . Essa contaminao ocorreu de forma solidria em relao a SNR, ou seja, se um coeciente foi contaminado
com uma dada SNR, todos os demais coecientes tambm sofreram contaminaes
de rudo branco (aleatrio) com a mesma SNR. Essa perturbao nos coecientes
da matriz de mistura visa provocar um erro na estimativa dessa matriz.
A idia
com a SDR e o outro o grco com a estimao do erro RMS (em escala logartmica).
O algoritmo de derreverberao se baseou na suposio que os coecientes
hij
ros na cadeia de manipulaes algbricas. Isso ocorre porque essas variaes (nos
coecientes) afetam a separao obtida, pois a matriz de separao empregada
funo dos
hij .
hij
rms
1
N
PN
i=1
[x(i) x
(i)]
154
50
SDR
40
30
20
10
SDR
0
31,2 40
60
80
100
120
140
10
10
31,2 40
60
80
100
120
140
Figura 10.3: (a) Erro RMS da separao (MIS); (b) SDR (MIS).
Conforme j foi dito, cada ponto representado por duas misturas, onde
cada mistura foi equivocadamente separada j que a matriz de separao foi contaminada com rudo branco (um padro de rudo branco para cada coeciente da
matriz), quando o mais correto seria termos para cada mistura a sua separao
perturbada por vrias matrizes de contaminao com rudo branco.
No entanto,
em cada ponto, cada mistura teve sua separao contaminada com uma matriz de
contaminao de rudo branco diferente.
Pode-se observar na Figura 10.4 que, at uma SNR em torno de 90 dB (SDR
prxima a 20 dB), a separao das fontes evolui pouco com a SNR, e exatamente
155
50
SDR
SDR
40
30
20
10
0
31,2 40
60
80
100
120
140
% de Acerto
% de Acerto
0.8
0.6
0.4
0.2
0
31,2 40
60
80
100
120
140
Figura 10.4: (a) Erro de separao (MIS); (b) Taxa de acerto classicao (MIS).
nesse trecho que a taxa de acerto do classicador mais progride com a SNR. A partir
desse ponto, o classicador estabiliza a sua taxa de acerto mdia e passa a ocorrer
uma melhora signicativa na separao.
A dependncia com a separao do classicador ocorre na faixa da SNR em
que o classicador no apresenta suas melhores taxas, indicando que nessa regio
uma melhora ou piora na separao afeta a capacidade do classicador em acertar.
A partir desse ponto (SNR prximo a 90 dB, onde o rudo j no afeta tanto o sinal),
a melhora na separao no afeta a capacidade do classicador em acertar. Assim,
existem duas regies em relao SNR quanto a taxa de acerto do classicador:
uma em que a taxa de acerto do classicador dependente da separao, e outra
em que a taxa de acerto do classicador no dependente da separao.
segunda regio representa a regio em que as perturbaes nos coecientes
hij
Essa
no
156
Parte IV
Concluso
157
Captulo 11
Concluso
Essa dissertao apresentou vrios estudos, assim como alguns comparativos
com trabalhos internacionais, em classicao de instrumentos. Importa ressaltar
que os resultados que aqui sero relatados esto limitados s bases de dados que
foram empregadas. Portanto, a despeito de os resultados sugerirem um alcance amplo, cumpre ser cuidadoso para no estender em demasia o campo de aplicabilidade
das concluses.
No Captulo 3 diversos mtodos de extrao de segmentos de uma nota musical foram descritos. A ideia por trs dessa abordagem a hiptese de se poder
identicar um instrumento musical atravs de uma codicao sobre uma regio
particular da nota musical; ou seja, no imperioso codicarmos aspectos relativos
nota inteira. Esse princpio comumente encontrado em diversos problemas presentes em nosso cotidiano, como por exemplo, na identicao de pessoas atravs
das digitais, onde no necessrio codicarmos informaes sobre o corpo inteiro
ao discriminarmos os indivduos.
mesma densidade .
Essa abordagem no foi observada em outros trabalhos encontrados na literatura em identicao de instrumentos musicais possuindo dois fatores que a justicam. Em primeiro lugar, em muitos casos o excesso de informao atua mais como
158
diferem o que necessrio descrever (vetor descritor) para uma classicao do que
necessrio descrever para uma reproduo.
Assim, a ideia (diferente da usual, que consiste em passear uma janela ao
longo da nota e ir extraindo caractersticas da nota) determinarmos somente um
segmento da nota que a princpio contenha informao suciente para discriminar
os instrumentos musicais, a partir do procedimento de extrao de caractersticas
previamente estabelecido.
Dessa forma, avaliaram-se algumas formas distintas de se obter segmentos de
interesse das notas musicais. Os modelos de segmentao avaliados nessa dissertao
podem ser subdivididos em classes: segmentadores por limiar, segmentadores por
159
cordas com pizzicato, em que o padro temporal basicamente formado pelo ataque seguido de relaxao, a qual sua envoltria segue um padro aproximado de
uma exponencial decrescente.
rea, sendo necessrio recorrer a mais simulaes em outras bases de dados para ser
generalizado.
Alguns trabalhos de reconhecimento citam o trecho de ataque como importante para se extrair caractersticas capazes de discriminar fontes distintas [18],
dessa forma, vrios trabalhos codicam o segmento central juntamente com outros
segmentos (parte do ataque e parte da relaxao) [3, 6, 25, 46].
No entanto, os
resultados obtidos nessa dissertao prope que haja uma reduo da regio que se
pretende codicar (segmento central pelo modelo IMF). Assim, para o uso exclusivo do segmento de ataque (ou segmentos iniciais) num sistema de reconhecimento
automtico de instrumentos musicais, deve-se tomar cuidado com pelo menos trs
fatores que podem atuar como agentes perturbadores da taxa de acerto:
160
2. o reduzido nmero de amostras, em alguns instrumentos, obtidas para caracterizar esse segmento. Tal restrio poderia ser contornada aumentando-se a
taxa de amostragem. Isto foi percebido pelo fato de vrias notas apresentarem
poucas amostras para esse segmento, obrigando a insero de uma regra de
SVM [53]. Cabe enfatizar que no avaliamos todos os tipos de codicadores, tais
como: LPCC [3], Wavelet [54, 55, 56] e RASTA-PLP [54, 57]. Uma avaliao exaustiva do impacto do uso dos parametrizadores acima sobre o desempenho do sistema
classicador seria extremamente laboriosa, haja vista o alto nmero de combinaes envolvidas e as complexas dependncias entre os vrios estgios do sistema de
classicao. Sendo assim, optou-se por utilizar um conjunto limitado de parmetros. Contudo, foi possvel constatar que, para o emprego usado nessa dissertao,
os classicadores empregados mostraram uma preferncia em ordem decrescente da
taxa de acerto para as codicaes LSF, MFCC, LPC e CEPSTRUM. Esse resultado tambm conrma as concluses de um dos primeiros trabalhos na rea [6],
acrescentando somente a presena do codicador LSF descrita em [3].
O resultado de Krishna e Sreenivas [3], sugere o uso preferencial do LSF no
lugar do MFCC conjuntamente para os classicadores GMM e
K -NN,
e tem seu
2 Pode-se argumentar que um aumento na taxa de amostragem no necessariamente incrementar a quantidade de informao que extrairemos do sinal, j que o sinal pode vir a ser limitado
em banda; por outro lado, esses segmentos costumam ser de banda larga, e eventualmente essas
informaes de alta frequncia podem ser determinantes para caracterizar o instrumento.
161
K -NN,
DLG e
modelo usado pela SVM (uso de hiperplano separador para discriminar duas classes no espao de caractersticas) e de alguns conceitos presentes em Redes Neurais
(similaridade na funo custo a ser minimizada). Tal classicador aceita transformaes no espao de entrada, sendo que para se obter a soluo multiclasse foram
usadas tcnicas descritas no Captulo 6, e que normalmente so usadas para a SVM.
J as transformaes no espao de entrada que o classicador DLG utilizou nessa
dissertao foram baseadas em [33].
Ao compararmos os melhores resultados obtidos por cada classicador no
se observou uma preferncia clara entre os classicadores, sendo que o classicador
DLG obteve taxas ligeiramente inferiores que as dos demais (cerca de 2 a 3 pontos percentuais para menos). No entanto, a melhor soluo com o codicador LPC
foi obtida com o uso do classicador DLG (entre 2 e 3 pontos percentuais para
mais). Essa pequena diferena na taxa de acerto entre os demais classicadores e
o DLG persistiu tambm para o agrupamento INSTRUMENTO da base de dados
MIS. Essa diferena pode em parte ser explicada pela taxa de acerto obtida para
162
o conjunto de treinamento.
Esses
163
a base de dados MIS, usando o agrupamento MFPC, contendo quatro classes representadas por famlias de instrumentos, de um total de 14 instrumentos. Todas
obtiveram taxas de acerto iguais ou superiores a 98,8%. Essas solues foram avaliadas para um novo agrupamento contendo 14 classes (instrumentos), mantendo o
excelente desempenho, com as seguintes taxas de acerto: 95,6%, 94,8%, 94,8% e
96,4% para as solues 1, 2, 5 e 6, respectivamente.
K -NN,
164
Contudo, tais
comparaes com esses trabalhos devem ser atenuadas devido s eventuais diferenas nos testes, como as bases de dados utilizadas e os agrupamentos hierrquicos
avaliados.
Nessa dissertao foi tambm abordado o problema de identicao das fontes em um sinal polifnico a partir de misturas instantneas. Foram usadas duas
abordagens, uma contendo um separador de fontes e outra sem o separador de fontes.
O separador de fontes empregado foi otimizado de forma a interferir minimamente
na taxa de acerto do classicador. De fato, as simulaes avaliaram a capacidade
do classicador conseguir classicar corretamente as notas distorcidas pela superposio temporal, a qual no foi possvel resolver com separador de fontes otimizado.
Para esse caso, vericou-se que misturas contendo at 6 fontes foram estimadas corretamente. J para misturas sem o separador de fontes vericou-se que misturas com
at 5 fontes tiveram as duas estimativas mais votadas corretamente identicadas.
Tambm se avaliou a robustez do classicador ao contaminar uma sequncia
monofnica com rudo branco e sinal interferente.
Essa
Assim, foi
necessrio usar um algoritmo de derreverberao para corrigir essas distores causadas pelo algoritmo separador de misturas convolutivas. Avaliou-se nesse caso uma
perturbao com rudo branco nos coecientes da matriz de separao que sero
determinantes para a deconvoluo da distoro causada pelo algoritmo separador.
165
Os resultados indicam que a SNR necessria para que o classicador consiga estimar corretamente as fontes alta, superior a 90 dB. Esse resultado dependente do
mtodo que foi avaliado nessa dissertao.
No apndice B foi feita uma comparao direta entre os resultados obtidos
em [3] e os resultados obtidos nessa dissertao. A base de dados empregada foi a
MIS, e os instrumentos avaliados em ambos os trabalhos foram os mesmos (14 instrumentos). As diferenas residem somente na formao do conjunto de treinamento
(que em [3] no foi informado) e nos agrupamentos familiares, que foram alterados
no apndice B de forma a se poder fazer a comparao. As taxas de acerto obtidas
para o agrupamento familiar foram de 95% em [3] contra 98,8% nessa dissertao,
e para os instrumentos foram de 90% em [3] contra 96,4% obtida pela soluo 6 ou
97,2% obtida pelo banco de classicadores formado pelos sistemas de classicao
denidos nas solues 1, 5 e 6, de forma que os resultados obtidos nessa dissertao
para esse agrupamento com essa base de dados superaram os melhores resultados
observados na literatura para esses mesmos agrupamento e base de dados.
Essa dissertao levanta algumas questes que possivelmente podem resultar
em futuros trabalhos nas reas de segmentao, codicao, classicao e agrupamentos hierrquicos visando um sistema de reconhecimento automtico para instrumentos musicais.
Na rea de segmentao, no foi observada uma reduo signicativa da taxa
de acerto com a reduo do segmento central. Com isso abre-se a possibilidade de
um trabalho que consiga caracterizar o tamanho mnimo desse segmento para uma
dada nota.
o segmento central possui parte do segmento de ataque mais o decaimento acrescido de parte do segmento de sustentao (ou, quando esses no ocorrem, parte
da relaxao). Tambm se deve destacar que grande parte das notas com pizzicato
dos instrumentos de cordas, que no possuem sustentao conforme pode ser observado na Figura 3.7 (envoltria da nota C4 de um violino), tiveram uma alta taxa
de acerto.
166
codicar parte do ataque mais o decaimento (ou parte da relaxao, caso no exista
sustentao) para caracterizar o instrumento musical, uma vez que esses trechos da
nota representam o intervalo entre o comeo do m do ataque da nota e o incio
da sustentao ou relaxao da nota, ou seja, onde o instrumentista teria menor
controle sobre a nota. Possivelmente por esse motivo esses trechos carregariam menor contaminao volitiva, e portanto, uma informao mais limpa do instrumento
musical. Alm dessa questo, existe a possibilidade de avaliar-se o desempenho do
trecho de relaxao, que no foi abordado nesse trabalho, como tambm de qualquer
outro segmento decorrente de mtodos de segmentao que no foram investigados
nesse trabalho.
Na rea de codicao foi observado que o codicador MFCC apresentou o
melhor resultado para o trecho de ataque, enquanto que o codicador LSF apresentou um desempenho ligeiramente superior para o segmento central do modelo IMF.
Assim, pode-se investigar em trabalhos futuros a associao desses 2 trechos com
essas codicaes distintas combinados ou no com a transformada Wavelet para
a formao de um vetor de caractersticas com potencial de discriminao maior.
Alm dessas questes, pode-se avaliar o uso de outros codicadores tais como LPCC
e RASTA-PLP.
Na rea de classicao o classicador DLG com uma transformao polinomial para o espao de caractersticas apresentou taxas de acerto superiores a 97%
(para o agrupamento MFPC), provando que o desempenho da sua implementao
na forma generalizada proposta nessa dissertao para essas bases de dados comparvel dos demais classicadores empregados nessa dissertao, de forma que
o uso de discriminantes lineares na rea de classicao de instrumentos musicais
no pode ser desprezado. Assim, pode-se pensar em trabalhos futuros usando uma
implementao otimizada do DLG com uso de variados kernels a m de reduzir o
seu tempo de resposta e de melhorar seu desempenho, uma vez que a transformao
para o espao de caracterstica que a SVM (gaussiana) empregou pode ter favorecido
esse ltimo na conquista das melhores solues. Outra melhoria possvel que essa
implementao de DLG permite variaes nas funes objetivos, o que pode angariar melhorias no seu desempenho. O classicador DLG elaborado nessa dissertao
usou um mtodo de busca de mnimo local baseado no algoritmo LMS normalizado.
167
No entanto, nada impede que se usem outros mtodos de busca de mnimos locais
ou globais mais ecientes ou mais rpidos, dependendo da situao.
Alm dessa
questo, observou-se ainda que a maioria dos trabalhos nessa rea utilizam GMM
ou SVM. Existem alguns casos especcos com Redes Neurais e HMM. Portanto, a
abordagem apresentada nessa dissertao pode ser avaliada juntamente com esses
demais classicadores.
Com relao aos agrupamentos foi mostrado nessa dissertao que o modelo
de reagrupamento difere do modelo padro. Portanto, em trabalhos futuros pode-se
desenvolver novos agrupamentos das amostras dos instrumentos a partir das semelhanas entre elas (medidas por mtrica) ou estimadas pela taxa de acerto (por um
sistema de reconhecimento previamente denido) para uma dada estratgia, visando
reduzir erros de confuso entre instrumentos, e com isso atingir melhores resultados.
Nessa busca possivelmente ser necessrio usarmos clusterizadores.
Com relao ao modelo hierrquico obteve-se no nico caso estudado uma
congurao capaz de discriminar 100% das amostras da famlia MFPC tanto em
teste quanto em treinamento. Isso foi possvel alterando-se para cada n a soluo
(vetor de caracterstica mais classicador) o que levanta a questo de se estudar
qual a melhor estrutura hierrquica (rvore) para se classicar um agrupamento
(conjunto de classes, folhas).
Vericou-se que a presena da reverberao afeta a taxa de acerto. Isso foi
vericado tanto na base de dados MUMS (cujas amostras esto contaminadas com
reverberao) quanto nas misturas convolutivas em uma sala (com reverberao).
Assim, pode-se pensar em usar um conjunto de descritores que sejam menos sensveis reverberao, ou em alguma transformao sobre o vetor de caracteristicas
j formado, uma vez que contornar a distoro causada pela reverberao algo
extremamente complicado visto que a reverberao pode alterar drasticamente o
espectro de forma desconhecida.
168
Referncias Bibliogrcas
[1] Anssi Klapuri e Manuel Davy, Signal Processing Methods for Music Transcrip-
tion Using Gaussian Mixture Models and Support Vector Machines, Cambridge
Research Labs Technical Report Series CRL/4, 1999.
169
[10] Lawrence Fritts, Musical Instruments Samples of IOWA University, MIS, disponibilizada pela University of IOWA
via http://theremin.music.uiowa.edu/MIS.html, 1997.
Database and Musical Instrument Sound Database, disponibilizada pela National Institute of Advanced Industrial Science and Technology (AIST), via
http://sta.aist.go.jp/m.goto/RWC-MDB/m, ISMIR, pp. 229-230, 2003.
1996.
Translated from the Original German by Anthony Baines and Klaus P. Wachsmann, The Galpin Society Journal, vol. 14, pp. 3-29, 1961.
2.ed.,
170
Classicao de
features and discriminatively trained HMMs, Signal Processing and Its Appli-
171
[32] Jorge C. Pires Filho, Diego B. Haddad e Luiz P. Calba, Tcnicas de Reconhe-
[33] Jorge C. Pires Filho, Paulo Antonio Andrade Esquef e Luiz Wagner Pereira
Biscainho, Classicao Automtica de Sons de Instrumentos Musicais usando
nophonic Musical Instrument Sounds using kNNC, Journal of Intelligent Information Systems, vol. 24, no. 2-3, pp. 199-221(23), 2005.
[35] Richard O. Duda, Peter E. Hart e David G. Stork, Pattern classication, John
Wiley & Sons, Inc, New York, 2000.
172
SIAM, 1990.
[43] Nancy Heckman, The theory and application of penalized least squares methods
Dissertao de
296-302, 1964.
[50] Herbert Buchner e Walter Kellerman, A Fundamental Relation Between Blind
and Supervised Adaptive Filtering Illustrated For Blind Source Separation and
Acoustic Echo Cancellation, HSCMA, pp. 17-20, 2008.
[51] Shoji Makino e Te-Won Lee,
Support Vector Machines an Application to Audio Signal Segmentation, European research project MOUMIR, http://www.moumir.org.
173
ment Sound Classication, 8th Int. Symp Signal Proc. & Applns, University of
Wollongong, pp. 1-4, 2005.
174
Parte V
Apndices
175
Apndice A
Banco de Dados de Instrumentos
Foram utilizados no desenvolvimento deste trabalho de reconhecimento de
instrumentos musicais trs bancos de dados de instrumentos:
um fornecido pela
Universidade de Iowa [10], outro fornecido pela Universidade McGill [5] e o ltimo
uma base de dados japonesa denominada RWC Music Database [11]. Nem todas as
amostras contidas em cada banco de dados foram utilizadas, ou seja, foram utilizados
nessa dissertao somente alguns dos instrumentos, tendo havido preferncia para os
instrumentos que aparecem em todas as bases de dados. No entanto, especicamente
em relao base de dados MIS, a escolha do subconjunto de instrumentos musicais
foi feita com o intuito de avaliar o desempenho do algoritmo proposto em relao a
um outro trabalho internacional (desenvolvido por Krishna [3]). Somente a partir
desse subconjunto que buscou-se os instrumentos equivalentes nas demais bases de
dados.
Associate e professor de composio da mesma Universidade. Os sons dos instrumentos musicais foram gravados em uma cmara anecica no Johnson Speech and
176
Posterior-
Sound Designer II (1997-1999) ou a Bias Peak (2000-). Para cada instrumento musical selecionado foram gravados (cobrindo toda a tessitura do instrumento) escalas
cromticas com trs nveis dinmicos no normalizados (pp, mf, , ou seja, pianssimo, mezzo forte, e fortssimo), feitas em mono, 16 bit, 44,1 kHz, e formato AIFF.
A nica exceo o piano cujo som foi gravado em um pequeno estdio (ambiente
no anecico) na forma stereo.
Cada nota tem aproximadamente 2 segundos de durao e imediatamente
precedida e seguida de um intervalo. Quando pertinentes, diferentes estilos de execuo e recursos expressivos foram gravados (por exemplo: amostras de sons de violino,
viola e violoncelo com ou sem vibrato alm de execuo com arco em pizzicato ).
Na Tabela A.1 so apresentados todos os instrumentos contemplados por este
banco de dados.
177
Instrumento
Arquivo
Notas
Alto Flute
11
99
Alto Saxophone
18
192
Bass Clarinet
12
139
Bass Flute
10
102
Bass Trombone
12
131
Bassoon
15
122
Bb Clarinet
13
139
Bb Trumpet
24
212
Cello
77
668
Double Bass
69
571
Eb Clarinet
13
119
Flute
22
227
French Horn
12
96
Oboe
12
104
Piano
259
259
Soprano Saxophone
24
192
Tenor Trombone
12
99
Tuba
111
Viola
27
257
Violin
71
601
178
0,25
0,2
0,15
Amplitude
0,1
0,05
0
0,05
0,1
0,15
0,2
0,25
0
0,2
0,4
0,6
0,8
1
1,2
n (amostras)
1,4
1,6
1,8
2,2
0,8
Amplitude
0,6
0,4
0,2
0,2
0,4
6
8
n (amostras)
10
12
5
x 10
179
Devido a esse fato, para cada gravao, as notas dos dois canais foram
Amplitude
1
0,5
0
0,5
1
10
12
14
n (amostras)
(a)
16
4
x 10
Amplitude
1
0,5
0
0,5
1
n (amostras)
(b)
10
12
14
16
4
x 10
180
base, Royalty-free Music Database, Classical Music Database, Jazz Music Database,
Music Genre Database e Musical Instrument Sound Database. O pacote usado nessa
dissertao o Musical Instrument Sound Database, composto por 50 instrumentos
distintos e armazenados em 12 DVDs. As amostras foram gravadas em 44,1 kHz,
com 16 bits em formato monoaural.
Ela fornece, a princpio, 3 variaes para cada instrumento, totalizando cerca
de 150 performances de instrumentos de msica, sendo tambm caracterizada por 4
tpicos, a saber:
1.
As Variaes so decorrentes de gravaes oriundas de 3 fabricantes de instrumentos, sendo estes instrumentados por at 3 msicos distintos.
Assim,
cada variao caracterizada, em princpio, por um instrumento de um diferente fabricante tocado por um diferente msico. Cada prossional empregado
teve em mdia 17 anos de experincia assegurados para cada instrumento musical. Entretanto, para alguns instrumentos musicais, foi includa uma variao
a partir de um outro tipo de instrumento musical;
2.
cuo foram registrados, dentro da gama de possibilidades para cada instrumento. No entanto, para instrumentos de percusso (RWC-MDB-I-2001 No
40-44), cada tipo foi quebrado dentro dos especcos instrumentos e contabilizado como estilo de execuo por convenincia (e gravado para cada um destes
mltiplos estilos de execuo);
3.
4.
Nvel Dinmico
instrumento foi tambm gravado com 3 (trs) nveis dinmicos (forte, mezzo,
181
As gravaes dos arquivos seguiram o procedimento de agrupar os sons individuais em ordem crescente de pitch sobre a faixa total do instrumento (tessitura),
inserindo um intervalo de silncio (gap ) entre sons individuais e adjacentes. Dessa
forma facilitado o procedimento de segmentao das notas, bastando para isso um
simples detector de silncio. O nome de cada arquivo formado por oito caracteres
com uma extenso .wav. Estes oito caracteres consistem em:
182
183
1
0,8
0,6
Amplitude
0,4
0,2
0
0,2
0,4
0,6
0
0,5
1,5
n (amostras)
2,5
Posteriormente esse segmentador mostrou-se til quando foram feitas as anlises presentes nos captulos 9 e 8, onde foi empregado conjuntamente com outro
extrator de notas, basicamente devido ao fato de ter se mostrado bastante robusto.
O segmentador implementado usou o fato que quando uma janela passeia
sobre a energia do sinal, o desvio padro do sinal na janela que contm o incio ou
nal da nota sofre um acrscimo, visto que a variao do nvel de energia quando
a nota se inicia ou se encerra ser maior que a variao do nvel de energia que
contm somente amostras dos instantes de silncio ou de presena da nota. Assim,
ao variarmos as entradas (tamanho da janela, desvio padro da janela) possvel
gerar uma segmentao correta das notas contidas na amostra do sinal.
Aps a segmentao persiste um segundo problema que saber se o nmero de
notas obtidas pelo segmentador representa o nmero real de notas distintas contidas
no arquivo.
De posse dessa
184
0,8
Amplitude
0,6
0,4
0,2
0,2
0,4
5
6
n (amostras)
10
4
x 10
0,25
0,2
0,15
0,1
Amplitude
0,05
0
0,05
0,1
0,15
0,2
8
10
n (amostras)
12
14
16
4
x 10
o processo. Para isso, mais uma entrada foi acrescentada: a mdia da janela, a qual
passou a ser comparada juntamente com o desvio da janela com a mdia e o desvio
do sinal inteiro. Essa modicao no garantiu o sucesso de 100% dos casos, mas
tornou o processo robusto o suciente para que fosse empregado nas avaliaes dos
captulos citados anteriormente.
185
Apndice B
Comparao com outros Trabalhos
Esse apndice tem como objetivo efetuar uma comparao entre os resultados
obtidos pelo classicador proposto por essa dissertao e os resultados obtidos em
[3].
Existem algumas poucas limitaes para uma comparao direta dos resultados obtidos pelos dois trabalhos, as quais relacionam-se com o conjunto de treinamento escolhido para treinar os classicadores, porque traduz uma alterao do
conjunto de teste.
para menos nos instrumentos ou nas famlias podem ocorrer, sem que haja uma
preferncia clara.
Esse percentual
nal quantidade de amostras por instrumento, pois a taxa global indicada foi de
90%, sendo que, se ponderarmos pelos instrumentos as taxas relatadas para cada
186
187
Tabela B.1: Taxas de acerto obtidas por Krishna e Sreenivas usando GMM com 46
misturas.
Tabela B.2: Taxas de acerto obtidas pelos melhores classicadores para a base de
dados MIS.
podemos ver que alguns instrumentos foram melhores classicados com o classicador elaborado nessa dissertao enquanto que outros instrumentos foram melhores
classicados com o classicador elaborado por Krishna e Sreenivas.
No entanto,
188
K -NN
possvel fazer uma comparao direta com os resultados de cada famlia, visto que
Krishna e Sreenivas no apresentaram no seu artigo a taxa de acerto de cada famlia. Apesar disso, apresentaremos na Tabela B.3 os resultados para o agrupamento
FRBS obtidos pelos principais classicadores que compem a soluo proposta nessa
dissertao.
189
que o modelo apresentado por Krishna e Sreenivas teve uma variao de aproximadamente 16% para um acrscimo de 5 instrumentos (mantido o modelo obtido com
a base de dados MIS). J o trabalho apresentado nessa dissertao obteve para a
base de dados RWC com 17 instrumentos (mantido o modelo obtido com a base
de dados MIS) uma taxa de acerto de 97,1%, praticamente a mesma obtida para a
base de dados MIS com 14 instrumentos. Um segundo resultado foi obtido para 20
instrumentos, com o mesmo modelo. Nesse caso as amostras das 3 bases de dados
foram misturadas, e a taxa de acerto foi superior a 94%.
190