Professional Documents
Culture Documents
Apstrakt
U ovom radu analizirano je prepoznavanje govora na ogranienom reniku nezavisno Formatted: Justified
od govornika korienjem skrivenih Markovljevih modela (SMM). Koriena karakteristina
obeleja govornog signala su kepstralni koeficijenti Melove skale, po uzoru na (Davis and Formatted: Font: (Default) Times New Roman, 12 pt,
Mermelstein, 1980) [1]. Za potrebe istraivanja formirana je baza na srpskom jeziku sa 48 Font color: Auto, Pattern: Clear
govornika, od 30 rei podeljenih u grupe od po jedan, dva, tri i etri sloga. Za obeleavanje
baze, raunanje karakteristinih obeleja, treniranje i testiranje SMM-a korien je Hidden Commented [NT1]: ta je obeleavanje baze?
Markov Model Toolkit. Na snimljenoj bazi ostvarena je PPV 95% ukoliko je broj skrivenih Commented [RA2R1]: Labeliranje na srpskom
stanja vei od 15. Dodatno, pokazano je da ne postoji optimalni broj stanja SMM-a, kao i da
Commented [NT3]: ?
broj stanja SMM-a nije srazmeran broju slova ili slogova rei iz baze.
Commented [RA4R3]: Positive predictive value
Commented [NT5]: Pokazano je
Uvod Commented [RA6R5]: Done
3.2. Izmeu izabranih taaka linearno je rasporeeno onoliko taaka koliko ima
i filtera, da bi svaki filter, osim prvog i poslednjeg imao tri take koje bi
obuhvatio. Zatim su dobijene vrednosti preraunate u Herce formulom Commented [NT25]: Zato ?
1 () = 700(exp(1125)). Commented [RA26R25]: Done
3.3. Sledei korak je bio skaliranje dobijenih frekvencija od 0 do 512 (polovine Formatted: Justified, Indent: First line: 0.48"
broja taaka furijeove transformacije). Nad dobijenim takama formirana je filter banka.
Svaki filter je obuhvatao tri uzastopne take, u prvoj je poinjao i ima vrednost 0, u
drugoj je dostizao maksimum i imao vrednost 1 i u treoj se vraao u nulu. Prvi filter je
poinjao u prvoj taki, drugi u drugoj...
3.4. Proizvodi vVrednosti svakog filtera i filtera pomnoena je sa vrednostima
spektrograma snage su sabrani , da bi frekvencijski domen bio logaritmovan, te Commented [NT27]: Ovde prvi put pominjes
vrednosti su sabrane, a potom logaritmovanie (jer je to bio korak ka dobijanju spektrogram snage
keprstrograma). Zatim je od tih vrednosti odreena Inverzna Brza Furieova Commented [RA28R27]: Greska bila svuda sam pisao
Transformacija i dobijen je kepstrogram. Iz kepstrograma je uzeto prvih 12 koeficijenata spektar a ustvari je spektrogram
koji su potrebni za prepoznavanje govora. Koeficijenti gube brojnu vrednost sa Commented [NT29]: Mnogo pominje ovo je sabrano sa
porastom rednog broja n i zato su skalirani formulom tim i uzeta je ta vrednost.. ne kae konkretno koju vrednost
posmatra, pa je malo nejasno ta ste hteli da kaete
Commented [RA30R29]: Done
= (1 + ( ))
2 Commented [NT31]: Objasni malo formulu.. ta ti je L u
voju formuli, ta je nm ta je cn i kakve veze ima sa onim to
gde je L vrednost koja opisuje koliko puta poveavamo vrednost kepstralnih si priao u 3.4
koeficijenata, neskalirani kepstralni koeficienti, a skalirani kepstralni koeficienti..
Commented [RA32R31]: L je bilo objasnjeno, n isto
4. Od tih skaliranih kepstralnih koeficijenata su izraunati Delta kepstralni koeficijenti, koji objasnio sam i cn
daju vrednost promene MFCC karakteristika (Practicalcryptography.com, n.d.), pomou Commented [NT33]: ta su delta koeficijenti ?
formule: Commented [RA34R33]: Done
(n+1 n1 ) + 2(+2 2 )
=
10
5. A od Delta kepstralnih koeficijenata su izraunati Acceleration (Delta-Delta) Commented [NT35]: ?
koeficijenti, koji daju dodatne informacije o promeni MFCC karakteristika u vremenu Commented [RA36R35]: Done
(Practicalcryptography.com, n.d.), pomou formule:
(n+1 n1 ) + 2(+2 2 )
an =
10
Kako jednaine 4. i 5. zavise od prolih i buduih koeficienata, neophodna je
modifikacija na poetku i na kraju signala. Prvi ili poslednji koeficient e se koristiti umesto Commented [RA37]:
onih koji nedostaju.
U problemima prepoznavanja govora, nije poznata fizika reprezentacija skrivenih Formatted: Font:
stanja SMM-a. Upravo zato ovaj rad pokuava da odgovori na pitanje ta je zapravo skriveno
stanje SMM-a kod prepoznavanja govora ili od ega zavisi. M je broj rei u reniku, A je
matrica tranzicije stanja koja se inicijalizuje nasumino, a zatim se treniranjem SMM-a dobija
konana matrica tranzicija. Reavanjem ovog problema nije raunato B, meutim moda bi
upravo analiza generisanih posmatranja iz stanja pomogla pri razumevanju ta su to skrivena
stanja.. Commented [RA40]:
Ne postoji metod za odreivanje optimalne topologije SMM-a (Moreau, 2002) [9]. Red
modela odreuje na koliko narednih stanja e trenutno stanje uticati. U ovom radu odabran je
model drugog reda kao na slici (Slika 3.) zato to je ovakva topologija preporuena u
korienom okruenju, kao i u referentnoj literaturi (Gales and Young, 2007) [2]. Kod modela
drugog reda e svako stanje uticati na 2 sledea stanja.
Prilikom analize SMM-a, reavaju se tri osnovna problema (Rabiner, 1989) [5]:
Problem ocenjivanja, koji reavamo pomou Forward - Backward algoritma,
ovaj problem se pojavljuje kod testiranja sistema.
Problem odreivanja verovatnoe redosleda pojavljivanja skrivenih stanja, koji
nismo reavali.
Problem optimizacije modela, koji reavamo pomou Baum Welch algoritma
prilikom treniranja modela
Rezultati i diskusija
Performanse algoritma su okarakterisane pozitivnom prediktivnom vrednou (PPV,
eng. Positive predictive value, precision) i tanom pozitivnom stopom (TPS, True positive rate,
recall) po formulama
=
=
Gde su:
broj tano pozitivno detektovanih rei(rei koje su detektovane tano)
broj pozitivno detektovanih rei(rei koje su detektovane) Formatted: Serbian (Latin, Serbia)
broj pozitivnih rei(rei koje treba da se detektuju) Commented [NT41]: ta je proj tano pozitivno
detektovanih rei, a ta broj pozitivnih rei i broj pozitivno
detektovanih rei
Uspenim prepoznavanje je postignuto ako je PPV vea od 95%, zato to je u ovom Commented [RA42R41]: Done
sluaju TPS uvek 100%.
100
95
90
85
80
PPV
jedan slog
75
dva sloga
70 tri sloga
etiri sloga
65
60
55
50
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35
Broj stanja
95
90
85
80
PPV
tri slova
75
etiri slova
70 pet slova
est slova
65
60
55
50
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35
Broj stanja
95
90
85
80
75
PPV
est slova
70
sedam slova
65 osam slova
60 devet slova
55
50
45
40
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35
Broj stanja
Zakljuak
Prema rezultatima koji su dobijeni zakljueno je da optimalan broj stanja nije srazmeran
broju slogova kao ni broju slova.
Ne moe se tvrditi da zakljuak vai za sve rei u srpskom jeziku. Kako bi bilo mogue
tvrditi da zakljuak vai i za ostale rei u srpskom jeziku potrebno je ponoviti metod koji je
korien na celokupnom srpskom reniku.
Na slici 4. moe se primetiti da uspenost za grupu 4 (4 sloga, sa slinim reima) ne
prelazi prag od 95% koji je zadat, dok je u referentnom radu (Davis and Mermelstein, 1980) [1]
postignuto uspeno prepoznavanje za 12 slinih rei. Kako su u ovom radu sline rei due Commented [NT43]: Uspeno ako prelazi 95% ? msm
nego u referentnom radu, ovaj pad uspenosti prepoznavanja pripisan je duini rei. Kako bi to tako si definisao uspenost ?
bilo i potvreno, potrebno je napraviti bazu sa slinim ali i kraim reima i ponoviti Commented [RA44R43]: Tako je
eksperiment. Commented [NT45]: Da li zavisi i od jezika na kom se
izgovaraju rei ili samo od duine rei ?
Commented [RA46R45]: Nije provereno
Reference
Davis, S. and Mermelstein, P. (1980). Comparison of parametric representations for
monosyllabic word recognition in continuously spoken sentences. IEEE Transactions on
Acoustics, Speech, and Signal Processing, 28(4), pp.357-366.
[1] Davis, S. and Mermelstein, P. (1980). Comparison of parametric representations for
monosyllabic word recognition in continuously spoken sentences. IEEE Transactions on
Acoustics, Speech, and Signal Processing, 28(4), pp.357-366.
Gales, M. and Young, S. (2007). The Application of Hidden Markov Models in Speech
Recognition. FNT in Signal Processing, 1(3), pp.195-304.
[2] Gales, M. and Young, S. (2007). The Application of Hidden Markov Models in Speech
Recognition. FNT in Signal Processing, 1(3), pp.195-304.
Practicalcryptography.com. (n.d.). Practical Cryptography. [online] Available at:
http://practicalcryptography.com/miscellaneous/machine-learning/guide-mel-frequency-
cepstral-coefficients-mfccs/.
[3] Practicalcryptography.com, (2015). Practical Cryptography. [online] Available at:
http://practicalcryptography.com/miscellaneous/machine-learning/guide-mel-frequency-
cepstral-coefficients-mfccs/
[4] Young, S., Evermann, G., Gales, M., Hain, T., Kershaw, D., Liu, X., Moore, G., Odell, J.,
Ollason, D., Povey, D., Valtchev, V. and Woodland, P. (2009). The HTK Book. 3rd ed.
Cambridge.
Rabiner, L. (1989). A tutorial on hidden Markov models and selected applications in speech
recognition. Proceedings of the IEEE, 77(2), pp.257-286.
[5] Rabiner, L. (1989). A tutorial on hidden Markov models and selected applications in
speech recognition. Proceedings of the IEEE, 77(2), pp.257-286.
Ghahramani, Z. (2001). An Introduction To Hidden Markov Models And Bayesian
Networks. International Journal Of Pattern Recognition And Artificial Intelligence, 15(01),
Pp.9-42.
[6] Ghahramani, Z. (2001). An introduction to Hidden Markov Models and Bayesian
networks. International Journal of Pattern Recognition and Artificial Intelligence, 15(01),
pp.9-42.
Juang, B. (1984). On the Hidden Markov Model and Dynamic Time Warping for Speech
Recognition-A Unified View. AT&T Bell Laboratories Technical Journal, 63(7), pp.1213-
1243.
[7] Juang, B. (1984). On the Hidden Markov Model and Dynamic Time Warping for Speech
Recognition-A Unified View. AT&T Bell Laboratories Technical Journal, 63(7), pp.1213-
1243.
Lippmann, R. (1989). Review of Neural Networks for Speech Recognition. Neural
Computation, 1(1), pp.1-38.
[8]Lippmann, R. (1989). Review of Neural Networks for Speech Recognition. Neural
Computation, 1(1), pp.1-38.
[9] Moreau, N. (2002). HTK Basic Tutorial. [online] Available at:
hhttp://my.fit.edu/~vkepuska/HTK/HTK_basic_tutorial.pdf.
Hidden Markov Model Toolkit (HTK). (2002). Cambridge University Engineering
Department. [10] Hidden Markov Model Toolkit (HTK), Cambridge University Engineering
Department, 2002
Apstrakt na engleskom
Application of the hidden Markov model in speech recognition on a reduced dictionary.
This paper analyzes speaker independent speech recognition on the reduced dictionary using
hidden Markov models (HMM) (Rabiner, 1989) [5]. HMMs are used because they are better for
speech recognition in relation to other algorithms (Juang, 1984)(Lippmann, 1989)[7] [8]. Features
of the speech signals that are used are Mel frequency cepstral coefficients (MFCC) because of their
good results in the reference work (Davis and Mermelstein, 1980) [1]. For the purpose of this
research the database of 30 words divided into groups of one, two, three and four syllables
spoken by 48 people was made (Tabela 1.). The Hidden Markov Model Toolkit (HTK) was
used to label the database, to calculate features and for training and
testing HMMs. Number of hidden states of HMM in speech recognition is unknown, so we
expected because Serbian is language where for one letter there is one phoneme that number of
hidden states of HMM would be proportional to number of letters or number of syllables.
However, results show the number of hidden states of HMM is not proportional to the number
of syllables or letters. Further, it is shown that there is no optimal number of hidden states of
HMM (Slika 5, 6 i 7.). Accuracy archived on the database was 95% if the number of hidden
states was greater than 15.