�ݺ�ߣ

ANALIZA UTICAJA GLOBALNOG OGRANIČENJA CE2-1
NA PREPOZNAVANJE IZOLOVANO IZGOVORENIH REČI
SRPSKOG JEZIKA
Branko Marković1
, Mirjana Mitić1
, Milan Pajkić1
, Nenad Milenković1
, Gordana Marković2
REZIME
U ovom radu objašnjeno je kako korišćenje globalnog ograničenja CE2-1 utiče na
prepoznavanje izolovano izgovorenih reči. Rečnik koji je korišćen sastoji se od šest
osnovnih boja i četrnaest brojeva srpskog jezika. Algoritam za prepoznavanje je DTW.
Ključne reči: DTW algoritam, globalno ograničenje, kepstralni, delta kepstralni,
delta-delta kepstralni koeficijenti, prepoznavanje govora.
THE ANALYSIS OF THE GLOBAL CONSTRAIN CE2-1
INFLUENCE ON SERBIAN ISOLATED WORDS RECOGNITION
ABSTRACT
In this paper we explained how usage of the global constrain CE2-1 influence to
the recognize rate of isolated Serbian words. For the vocabulary we used six basic colors
and fourteen numbers. The algorithm for recognition was DTW (Dynamic Time Warping).
Key words: DTW algorithm, global constrains, cepstral, delta cepstral, delta-delta
cepstral coefficients, speech recognition.
1. UVOD
Pri rešavanju problema prepoznavanja govora koriste se različite metode i
različiti algoritmi. Jedan od najčešće korišćenih metoda je DTW (Dynamic Time
Warping). Ovaj metod je široko primenjivan od samih početaka prepoznavanja
govora i modifikovanjem različitih parametara moguće je dobiti veću ili manju
uspešnost prepoznavanja.
U ovom radu glavni fokus je usmeren na razmatranje kako ograničenje
globalne staze utiče na prepoznavanje govora. Razmatrana su dva osnovna slučaja:
1
Visoka škola tehničkih strukovnih studija Čačak
2
Tehnička škola, Čačak

kada ne postoji ograničenje i kada je ograničenje tipa CE2-1 (constranins
endpoints) [1]. Za bazu podataka korišćen je skup uzoraka koji je snimljen na
Visokoj školi tehničkih strukovnih studija Čačak poznat pod nazivoma Whi-Spe
[2]. U snimanju baze učestovalo je 10 studenta volontera koji su rečnik od 50
različitih reči pročitali po 20 puta (10 normalnim govorom i 10 šapatom). Za
potrebe istraživanja koje je prikazano u ovom radu korišćeni su izgovori dobijeni
pri normalnom govoru i pri tome samo deo baze koji se odnosi na boje i brojeve
srpskog jezika.
Cilj ovog rada je da se na bazi dobijenih rezultata utvrdi uticaj globalnog
ograničenja CE2-1 na verovatnoću prepoznavanja govora za različita vektorska
obeležja.
2. DTW ALGORITAM
Govorni uzorci za ovo istraživanje snimani su na frekvenciji odmeravanja
od 22,050Hz, a potom smeštani u obliku wave fajlova u bazu podataka. Za jednu
reč postoji po 10 govornih uzoraka normalnog govora i prilikom poređenja prvi
uzorak je korišćen kao referentni, a ostalih devet su korišćeni za poređenje. U
tabelama 1 i 2 date su reči koji su korišćene za ove eksprimente.
Tabela 1: Lista boja
BOJE
bela žuta crna crvena plava zelena
Tabela 2: Lista brojeva
BROJEVI
nula jedan dva tri četiri pet šest
sedam osam devet deset sto hiljadu milion
Svaki od wave fajlova je dovođen na sistem za predobradu [3] koji je
prikazan na slici 1. Na osnovu ove predobrade dobijani su odgovarajući vektori: ili
kepstralnih koeficijenata, ili kepstralnih i delta kepstralnih ili kepstralnih i delta i
delta-delta kepstralnih koeficijenata [4].
Slika 1: Predobrada govornog signala
Vektori od kepstralnih koeficijenata sadrže po 12 elemenata. Vektori od
kepstralnih i delta kepstralnih koeficijenata sadrže 24 elementa od kojih su prvih 12
kepstralni, a sledećih 12 delta kepstralni koeficijenti. Vektori od kepstralnih, delta

kepstralnih i delta-delta kepstralnih koeficijenata sadrže 36 elemenata od kojih su
prvih 12 kepstralni koeficijenti, sledećih 12 su delta kepstralni koeficijenti i zadnjih
12 su delta-delta kepstralni keoficijenti.
DTW algoritam omogućava pronalaženje optimalne staze između početnih
i krajnjih tačaka kroz čitavu mrežu potencijalnih prelaza [5]. Ako je početna tačka
(1,1), a krajnja (M,N), (gde je za primer sa slike 2 M=10, a N=12), onda ima više
različitih mogućnosti da se od početne dođe do krajnje tačke. Pri tome se računa
cena koštanja svakog od lokalnih prelaza.
Slika 2: Izbor optimalne staze
Pri ovim prelazima može se koristi i različit tip lokalnog ograničenja. Za
slučaj ovog istraživanja korišćeno je lokalno ograničenje Tipa I [6].
DTW algoritam je rekurzivan postupak i može se opisati kroz sledeće
korake [5]:
1) Inicijalizacija:
)1(*)1,1()1,1( mdD =
(1)
2) Rekurzija:
[ ])),(),','(()','(min),(
','
jijidjiDjiD
ji
+=
(2)
3) Završetak:
Φ
=
M
NMD
NMd
),(
),(
(3)
gde je d(i,j) lokalna distanca između vektora i i j, D(i,j) je akumulirana distanca za

globalnu stazu do tačke (i,j), a ΦM je normalizacioni faktor.
Vrlo je važno da se čuva informacija o preživelim stazama od tačke (1,1)
do tačke (M,N), a zatim idući unazad od tačke (M,N),da se rekonstruiše optimalna
staza [7].
3. GLOBALNA OGRANIČENJA
Razvijeni softverski paket WiseWave 1.5 je baziran na DTW-u i
omogućava da se za potrebe ovog eksperimenta koriste različita vektorska obeležja
(kepstralni, delta kepstralni i delta-delta kepstralni koeficijenti), a takođe i da se
uključi globalno ograničenje tipa CE2-1 ili da se testiranje vrši bez ograničenja
globalne staze.
Na slici 3 dat je prikaz zasenčenog prostora po kome se vrši traženje
optimalne staze za slučaj a) bez globalnog ograničenja i slučaj b) kada je
ograničenje tipa CE2-1.
Slika 3: Bez globalnog ograničenja (a) i sa ograničenjem tipa CE2-1(b)
Na bazi ovog softvera firmirano je šest različitih scenarija:
1) Vektor od kepstralnih koeficijenata (ukupno 12) i globalna staza bez
ograničenja;
2) Vektor od kepstralnih i delta kepstralnih koeficijenata (ukupno 24) i
globalna staza bez ograničenja;
3) Vektor od kepstralnih, delta kepstralnih koeficijenata i delta-delta
kepstralnih koeficijenta (ukupno 36) i globalna staza bez ograničenja;
4) Vektor od kepstralnih koeficijenata (ukupno 12) i globalna staza sa
CE2-1 ograničenjem;
5) Vektor od kepstralnih i delta kepstralnih koeficijenata (ukupno 24) i
globalna staza sa CE2-1 ograničenjem;

6) Vektor od kepstralnih, delta kepstralnih koeficijenata i delta-delta
kepstralnih koeficijenta (ukupno 36) i globalna staza sa CE2-1
ograničenjem.
Detaljno su razmotrene ove različite kombinacije i odgovarajući rezultati
dati u obliku tabela.
4. REZULTATI
Na bazi kreiranog softvera i korišćenjem svih deset govornika dobijeni su
pojedinačni rezultati. Prvih pet govornika su bile ženske, a drugih pet muške osobe.
Rezultati su klasifikovani na one koji su dobijeni bez globalnog
ograničenja i na one sa CE2-1 globalnim ograničenjem.
4.1 Bez globalnog ograničenja
U tabelama 3 i 4 dati su sumarno rezultati za svakog od govornika kada
nema globalnog ograničenja (prema slici 3a).
Tabela 3: Uspešnost prepoznavanja govora za boje bez ograničenja (u %)
Vrsta
obeležja/Govorni
k
Kepstralni (12)
Delta i Kepstralni
(24)
Delta-Delta i
Delta i Kepstralni
(36)
Govornik 1 100 100 100
Govornik 2 100 100 100
Govornik 3 96,29 96,29 96,29
Govornik 4 100 100 100
Govornik 5 96,29 98,15 98,15
Govornik 6 94,44 94,44 94,44
Govornik 7 92,59 90,74 90,74
Govornik 8 100 100 100
Govornik 9 96,29 96,29 96,29
Govornik 10 100 96,29 96,29
Tabela 4: Uspešnost prepoznavanja govora za brojeve bez ograničenja (u %)
Vrsta
obeležja/Govorni
k
Kepstralni (12)
Delta i Kepstralni
(24)
Delta-Delta i
Delta i Kepstralni
(36)
Govornik 1 100 100 100
Govornik 2 100 100 100
Govornik 3 100 100 100
Govornik 4 100 100 100
Govornik 5 100 100 100

Govornik 6 100 100 100
Govornik 7 100 100 100
Govornik 8 100 100 100
Govornik 9 100 100 100
Govornik 10 100 100 100
4.2 Sa CE2-1 globalnim ograničenjem
U tabelama 5 i 6 prikazani su rezultati za slučaj korišćenja CE2-1
globalnog ograničenja (Slika 3b).
Tabela 5: Uspešnost prepoznavanja govora za boje sa globalnim ograničenjem
CE2-1 (u %)
Vrsta
obeležja/Govorni
k
Kepstralni
Delta i Kepstralni
(24)
Delta-Delta i
Delta i Kepstralni
(36)
Govornik 1 100 100 100
Govornik 2 100 100 100
Govornik 3 96,29 96,29 96,29
Govornik 4 100 100 100
Govornik 5 98,15 100 96,29
Govornik 6 94,44 94,44 94,44
Govornik 7 90,74 90,74 90,74
Govornik 8 100 100 100
Govornik 9 96,29 96,29 96,29
Govornik 10 100 96,29 96,29
Tabela 6: Uspešnost prepoznavanja govora za brojeve sa globalnim ograničenjem
CE2-1 (u %)
Vrsta
obeležja/Govorni
k
Kepstralni
Delta i Kepstralni
(24)
Delta-Delta i
Delta i Kepstralni
(36)
Govornik 1 100 100 100
Govornik 2 99,21 99,21 99,21
Govornik 3 100 100 100
Govornik 4 100 100 100
Govornik 5 100 100 100
Govornik 6 100 100 99,21
Govornik 7 100 100 100
Govornik 8 100 100 100
Govornik 9 100 100 100
Govornik 10 100 100 100

Analizirajući dobijene rezultate za 10 raspoloživih govornika može se
uočiti da je verovatnoća prepoznavanja za brojeve nešto veća nego za boje.
5. ZAKLJUČAK
Na bazi izvršenih testiranja uočava se sledeće:
• prosečna uspešnost prepoznavanja za boje kada nema globalnog
ograničenja je: 97,34%
• prosečna uspešnost prepoznavanja za brojeve kada nema globalnog
ograničenja je: 100%
• prosečna uspešnost prepoznavanja za boje kada je CE2-1 globalno
ograničenje primenjeno iznosi: 97,34%
• prosečna uspešnost prepoznavanja za brojeve kada je CE2-1 globalno
ograničenje primenjeno iznosi: 99,89%
Na osnovu ovih rezultata uočava se da je uspešnost prepoznavanja za boje i
brojeve pojedinačno gotovo identična i za slučaj kada nema i kada ima globalnog
ograničenja. Takođe može se zaključiti da uticaj vrste vektora (kepstralni, delta i
delta-delta) nema značajniju ulogu. Ovo se može objasniti time što su uzorci
snimani u uslovima potisnutog ambijentalnog šuma, pa kako delta i delta-delta
utiču na potiskivanje šuma to njihov značaj nije došao do izražaja.
Može se uočiti da je verovatnoća prepoznavanja brojeva za oko 2,6% bolja
nego verovatnoća prepoznavanja boja. To se može objasniti činjenicom da su
pojedine boje fonetski dosta slične i najčešća konfuzija je upravo između samo par
boja.
Kao generalan zaključak može se konstatovati da za korišćenu bazu
podataka Whi-Spe primenjeni DTW postupak daje odlične rezultate u
prepoznavanju normalnog govora. Pretpostavka da će uvođenje ograničenja tipa
CE2-1 dati bolje rezultate nije se ostvarila jer i pri scenariju bez ograničenja
prepoznavanje je vrlo visoko. Dalja istraživanja mogu biti usmerena ka
prepoznavanju šapata kao i korišćenju drugih vrsta obeležja i ograničenja (lokalnog
i globalnog tipa).
6. LITERATURA
[1] L.R. Rabiner, S.E. Levinson, A.E. Rosenberg, J.G. Wilpon,
”Speaker-Independent Recognation of Isolated Words Using
Clustering Techniques”, IEE Transaction on Acoustics, Speech adn
Signal Procesing, Vol ASSP-27, No.4, 1979. pp. 336-349.

[2] B. Marković, S. T. Jovičić, J. Galić, Đ. Grozdić, „Whispered
speech database: design, processing and application”, The 16th
International Conference TSD 2013, Pilsen, Czech Republic, 2013,
pp. 591-598.
[3] G. Marković, B. Marković: “Vizuelni DTW kao nastavno sredstvo
za poređenje govornih uzoraka“, TIO 2008, pp. 409-415, 2008.
[4] B. Marković, J. Galić, Đ. Grozdić, S. T. Jovičić, „Application of
DTW method for Whispered Speech Recognition“, The 4th
International Conference on Fundamental and Applied Aspects of
Speech and Language, Belgrade, Serbia, October 25-26.
[5] L. Rabiner, B-H. Juang, “Fundamentals of Speech Recognition”,
Prentice Hall, 1993.
[6] H. Sakoe, S. Chiba, “Dynamic programming optimization for
spoken word recognition”, IEEE Trans. Acoustics, Speech, Signal
Proc., ASSP-26(1):43-49, February 1978.
[7] R. Mitrović, I. Živanović, I. Radeljić, B. Marković, „Korišćenje
asinhronog dinamičkog programiranja u rešavanju problema
optimalne staze“, TIO 2012, Čačak, 2012.

�ݺ�ߣ

Tehnika_i_Praksa_BM_MM_MP_NM_GM_br_10_2013

Recommended

More Related Content

Viewers also liked (15)

Tehnika_i_Praksa_BM_MM_MP_NM_GM_br_10_2013