1. ANALIZA UTICAJA GLOBALNOG OGRANIENJA CE2-1
NA PREPOZNAVANJE IZOLOVANO IZGOVORENIH REI
SRPSKOG JEZIKA
Branko Markovi1
, Mirjana Miti1
, Milan Pajki1
, Nenad Milenkovi1
, Gordana Markovi2
REZIME
U ovom radu obja邸njeno je kako kori邸enje globalnog ogranienja CE2-1 utie na
prepoznavanje izolovano izgovorenih rei. Renik koji je kori邸en sastoji se od 邸est
osnovnih boja i etrnaest brojeva srpskog jezika. Algoritam za prepoznavanje je DTW.
Kljune rei: DTW algoritam, globalno ogranienje, kepstralni, delta kepstralni,
delta-delta kepstralni koeficijenti, prepoznavanje govora.
THE ANALYSIS OF THE GLOBAL CONSTRAIN CE2-1
INFLUENCE ON SERBIAN ISOLATED WORDS RECOGNITION
ABSTRACT
In this paper we explained how usage of the global constrain CE2-1 influence to
the recognize rate of isolated Serbian words. For the vocabulary we used six basic colors
and fourteen numbers. The algorithm for recognition was DTW (Dynamic Time Warping).
Key words: DTW algorithm, global constrains, cepstral, delta cepstral, delta-delta
cepstral coefficients, speech recognition.
1. UVOD
Pri re邸avanju problema prepoznavanja govora koriste se razliite metode i
razliiti algoritmi. Jedan od naje邸e kori邸enih metoda je DTW (Dynamic Time
Warping). Ovaj metod je 邸iroko primenjivan od samih poetaka prepoznavanja
govora i modifikovanjem razliitih parametara mogue je dobiti veu ili manju
uspe邸nost prepoznavanja.
U ovom radu glavni fokus je usmeren na razmatranje kako ogranienje
globalne staze utie na prepoznavanje govora. Razmatrana su dva osnovna sluaja:
1
Visoka 邸kola tehnikih strukovnih studija aak
2
Tehnika 邸kola, aak
2. kada ne postoji ogranienje i kada je ogranienje tipa CE2-1 (constranins
endpoints) [1]. Za bazu podataka kori邸en je skup uzoraka koji je snimljen na
Visokoj 邸koli tehnikih strukovnih studija aak poznat pod nazivoma Whi-Spe
[2]. U snimanju baze uestovalo je 10 studenta volontera koji su renik od 50
razliitih rei proitali po 20 puta (10 normalnim govorom i 10 邸apatom). Za
potrebe istra転ivanja koje je prikazano u ovom radu kori邸eni su izgovori dobijeni
pri normalnom govoru i pri tome samo deo baze koji se odnosi na boje i brojeve
srpskog jezika.
Cilj ovog rada je da se na bazi dobijenih rezultata utvrdi uticaj globalnog
ogranienja CE2-1 na verovatnou prepoznavanja govora za razliita vektorska
obele転ja.
2. DTW ALGORITAM
Govorni uzorci za ovo istra転ivanje snimani su na frekvenciji odmeravanja
od 22,050Hz, a potom sme邸tani u obliku wave fajlova u bazu podataka. Za jednu
re postoji po 10 govornih uzoraka normalnog govora i prilikom poreenja prvi
uzorak je kori邸en kao referentni, a ostalih devet su kori邸eni za poreenje. U
tabelama 1 i 2 date su rei koji su kori邸ene za ove eksprimente.
Tabela 1: Lista boja
BOJE
bela 転uta crna crvena plava zelena
Tabela 2: Lista brojeva
BROJEVI
nula jedan dva tri etiri pet 邸est
sedam osam devet deset sto hiljadu milion
Svaki od wave fajlova je dovoen na sistem za predobradu [3] koji je
prikazan na slici 1. Na osnovu ove predobrade dobijani su odgovarajui vektori: ili
kepstralnih koeficijenata, ili kepstralnih i delta kepstralnih ili kepstralnih i delta i
delta-delta kepstralnih koeficijenata [4].
Slika 1: Predobrada govornog signala
Vektori od kepstralnih koeficijenata sadr転e po 12 elemenata. Vektori od
kepstralnih i delta kepstralnih koeficijenata sadr転e 24 elementa od kojih su prvih 12
kepstralni, a sledeih 12 delta kepstralni koeficijenti. Vektori od kepstralnih, delta
3. kepstralnih i delta-delta kepstralnih koeficijenata sadr転e 36 elemenata od kojih su
prvih 12 kepstralni koeficijenti, sledeih 12 su delta kepstralni koeficijenti i zadnjih
12 su delta-delta kepstralni keoficijenti.
DTW algoritam omoguava pronala転enje optimalne staze izmeu poetnih
i krajnjih taaka kroz itavu mre転u potencijalnih prelaza [5]. Ako je poetna taka
(1,1), a krajnja (M,N), (gde je za primer sa slike 2 M=10, a N=12), onda ima vi邸e
razliitih mogunosti da se od poetne doe do krajnje take. Pri tome se rauna
cena ko邸tanja svakog od lokalnih prelaza.
Slika 2: Izbor optimalne staze
Pri ovim prelazima mo転e se koristi i razliit tip lokalnog ogranienja. Za
sluaj ovog istra転ivanja kori邸eno je lokalno ogranienje Tipa I [6].
DTW algoritam je rekurzivan postupak i mo転e se opisati kroz sledee
korake [5]:
1) Inicijalizacija:
)1(*)1,1()1,1( mdD =
(1)
2) Rekurzija:
[ ])),(),','(()','(min),(
','
jijidjiDjiD
ji
+=
(2)
3) Zavr邸etak:
陸
=
M
NMD
NMd
),(
),(
(3)
gde je d(i,j) lokalna distanca izmeu vektora i i j, D(i,j) je akumulirana distanca za
4. globalnu stazu do take (i,j), a 陸M je normalizacioni faktor.
Vrlo je va転no da se uva informacija o pre転ivelim stazama od take (1,1)
do take (M,N), a zatim idui unazad od take (M,N),da se rekonstrui邸e optimalna
staza [7].
3. GLOBALNA OGRANIENJA
Razvijeni softverski paket WiseWave 1.5 je baziran na DTW-u i
omoguava da se za potrebe ovog eksperimenta koriste razliita vektorska obele転ja
(kepstralni, delta kepstralni i delta-delta kepstralni koeficijenti), a takoe i da se
ukljui globalno ogranienje tipa CE2-1 ili da se testiranje vr邸i bez ogranienja
globalne staze.
Na slici 3 dat je prikaz zasenenog prostora po kome se vr邸i tra転enje
optimalne staze za sluaj a) bez globalnog ogranienja i sluaj b) kada je
ogranienje tipa CE2-1.
Slika 3: Bez globalnog ogranienja (a) i sa ogranienjem tipa CE2-1(b)
Na bazi ovog softvera firmirano je 邸est razliitih scenarija:
1) Vektor od kepstralnih koeficijenata (ukupno 12) i globalna staza bez
ogranienja;
2) Vektor od kepstralnih i delta kepstralnih koeficijenata (ukupno 24) i
globalna staza bez ogranienja;
3) Vektor od kepstralnih, delta kepstralnih koeficijenata i delta-delta
kepstralnih koeficijenta (ukupno 36) i globalna staza bez ogranienja;
4) Vektor od kepstralnih koeficijenata (ukupno 12) i globalna staza sa
CE2-1 ogranienjem;
5) Vektor od kepstralnih i delta kepstralnih koeficijenata (ukupno 24) i
globalna staza sa CE2-1 ogranienjem;
5. 6) Vektor od kepstralnih, delta kepstralnih koeficijenata i delta-delta
kepstralnih koeficijenta (ukupno 36) i globalna staza sa CE2-1
ogranienjem.
Detaljno su razmotrene ove razliite kombinacije i odgovarajui rezultati
dati u obliku tabela.
4. REZULTATI
Na bazi kreiranog softvera i kori邸enjem svih deset govornika dobijeni su
pojedinani rezultati. Prvih pet govornika su bile 転enske, a drugih pet mu邸ke osobe.
Rezultati su klasifikovani na one koji su dobijeni bez globalnog
ogranienja i na one sa CE2-1 globalnim ogranienjem.
4.1 Bez globalnog ogranienja
U tabelama 3 i 4 dati su sumarno rezultati za svakog od govornika kada
nema globalnog ogranienja (prema slici 3a).
Tabela 3: Uspe邸nost prepoznavanja govora za boje bez ogranienja (u %)
Vrsta
obele転ja/Govorni
k
Kepstralni (12)
Delta i Kepstralni
(24)
Delta-Delta i
Delta i Kepstralni
(36)
Govornik 1 100 100 100
Govornik 2 100 100 100
Govornik 3 96,29 96,29 96,29
Govornik 4 100 100 100
Govornik 5 96,29 98,15 98,15
Govornik 6 94,44 94,44 94,44
Govornik 7 92,59 90,74 90,74
Govornik 8 100 100 100
Govornik 9 96,29 96,29 96,29
Govornik 10 100 96,29 96,29
Tabela 4: Uspe邸nost prepoznavanja govora za brojeve bez ogranienja (u %)
Vrsta
obele転ja/Govorni
k
Kepstralni (12)
Delta i Kepstralni
(24)
Delta-Delta i
Delta i Kepstralni
(36)
Govornik 1 100 100 100
Govornik 2 100 100 100
Govornik 3 100 100 100
Govornik 4 100 100 100
Govornik 5 100 100 100
6. Govornik 6 100 100 100
Govornik 7 100 100 100
Govornik 8 100 100 100
Govornik 9 100 100 100
Govornik 10 100 100 100
4.2 Sa CE2-1 globalnim ogranienjem
U tabelama 5 i 6 prikazani su rezultati za sluaj kori邸enja CE2-1
globalnog ogranienja (Slika 3b).
Tabela 5: Uspe邸nost prepoznavanja govora za boje sa globalnim ogranienjem
CE2-1 (u %)
Vrsta
obele転ja/Govorni
k
Kepstralni
Delta i Kepstralni
(24)
Delta-Delta i
Delta i Kepstralni
(36)
Govornik 1 100 100 100
Govornik 2 100 100 100
Govornik 3 96,29 96,29 96,29
Govornik 4 100 100 100
Govornik 5 98,15 100 96,29
Govornik 6 94,44 94,44 94,44
Govornik 7 90,74 90,74 90,74
Govornik 8 100 100 100
Govornik 9 96,29 96,29 96,29
Govornik 10 100 96,29 96,29
Tabela 6: Uspe邸nost prepoznavanja govora za brojeve sa globalnim ogranienjem
CE2-1 (u %)
Vrsta
obele転ja/Govorni
k
Kepstralni
Delta i Kepstralni
(24)
Delta-Delta i
Delta i Kepstralni
(36)
Govornik 1 100 100 100
Govornik 2 99,21 99,21 99,21
Govornik 3 100 100 100
Govornik 4 100 100 100
Govornik 5 100 100 100
Govornik 6 100 100 99,21
Govornik 7 100 100 100
Govornik 8 100 100 100
Govornik 9 100 100 100
Govornik 10 100 100 100
7. Analizirajui dobijene rezultate za 10 raspolo転ivih govornika mo転e se
uoiti da je verovatnoa prepoznavanja za brojeve ne邸to vea nego za boje.
5. ZAKLJUAK
Na bazi izvr邸enih testiranja uoava se sledee:
prosena uspe邸nost prepoznavanja za boje kada nema globalnog
ogranienja je: 97,34%
prosena uspe邸nost prepoznavanja za brojeve kada nema globalnog
ogranienja je: 100%
prosena uspe邸nost prepoznavanja za boje kada je CE2-1 globalno
ogranienje primenjeno iznosi: 97,34%
prosena uspe邸nost prepoznavanja za brojeve kada je CE2-1 globalno
ogranienje primenjeno iznosi: 99,89%
Na osnovu ovih rezultata uoava se da je uspe邸nost prepoznavanja za boje i
brojeve pojedinano gotovo identina i za sluaj kada nema i kada ima globalnog
ogranienja. Takoe mo転e se zakljuiti da uticaj vrste vektora (kepstralni, delta i
delta-delta) nema znaajniju ulogu. Ovo se mo転e objasniti time 邸to su uzorci
snimani u uslovima potisnutog ambijentalnog 邸uma, pa kako delta i delta-delta
utiu na potiskivanje 邸uma to njihov znaaj nije do邸ao do izra転aja.
Mo転e se uoiti da je verovatnoa prepoznavanja brojeva za oko 2,6% bolja
nego verovatnoa prepoznavanja boja. To se mo転e objasniti injenicom da su
pojedine boje fonetski dosta sline i naje邸a konfuzija je upravo izmeu samo par
boja.
Kao generalan zakljuak mo転e se konstatovati da za kori邸enu bazu
podataka Whi-Spe primenjeni DTW postupak daje odline rezultate u
prepoznavanju normalnog govora. Pretpostavka da e uvoenje ogranienja tipa
CE2-1 dati bolje rezultate nije se ostvarila jer i pri scenariju bez ogranienja
prepoznavanje je vrlo visoko. Dalja istra転ivanja mogu biti usmerena ka
prepoznavanju 邸apata kao i kori邸enju drugih vrsta obele転ja i ogranienja (lokalnog
i globalnog tipa).
6. LITERATURA
[1] L.R. Rabiner, S.E. Levinson, A.E. Rosenberg, J.G. Wilpon,
Speaker-Independent Recognation of Isolated Words Using
Clustering Techniques, IEE Transaction on Acoustics, Speech adn
Signal Procesing, Vol ASSP-27, No.4, 1979. pp. 336-349.
8. [2] B. Markovi, S. T. Jovii, J. Gali, . Grozdi, Whispered
speech database: design, processing and application, The 16th
International Conference TSD 2013, Pilsen, Czech Republic, 2013,
pp. 591-598.
[3] G. Markovi, B. Markovi: Vizuelni DTW kao nastavno sredstvo
za poreenje govornih uzoraka, TIO 2008, pp. 409-415, 2008.
[4] B. Markovi, J. Gali, . Grozdi, S. T. Jovii, Application of
DTW method for Whispered Speech Recognition, The 4th
International Conference on Fundamental and Applied Aspects of
Speech and Language, Belgrade, Serbia, October 25-26.
[5] L. Rabiner, B-H. Juang, Fundamentals of Speech Recognition,
Prentice Hall, 1993.
[6] H. Sakoe, S. Chiba, Dynamic programming optimization for
spoken word recognition, IEEE Trans. Acoustics, Speech, Signal
Proc., ASSP-26(1):43-49, February 1978.
[7] R. Mitrovi, I. 貼ivanovi, I. Radelji, B. Markovi, Kori邸enje
asinhronog dinamikog programiranja u re邸avanju problema
optimalne staze, TIO 2012, aak, 2012.