Prezentacja Krzysztofa Maraska z Polsko-Japońskiej Wyższej Szkoły Technik Komputerowych w ramach World Usability Day Tour 2009!
1 of 26
More Related Content
WUD 2009 - Użyteczność interfejsów głosowych
1. Katedra Multimediów
Użyteczność interfejsów głosowych
Krzysztof Marasek
Polsko-Japońska Wyższa Szkoła Technik Komputerowych
02-008 Warszawa, Koszykowa 86
kmarasek@pjwstk.edu.pl
K.Marasek
15.12.2008
2. Plan prezentacji
Dlaczego mowa?
Elementy systemu dialogowego:
Rozpoznawanie mowy
Synteza mowy
Nadzorca dialogu
Katedra Multimediów
Komunikacja głosowa człowiek-komputer
Ograniczenia w stosunku do komunikacji człowiek-człowiek
Ograniczenia technologiczne
Aspekty użyteczności interfejsu głosowego
Znaczenie poprawnych promptów
Testy, testy, testy
Co możemy zrobić dla języka polskiego?
Podsumowanie
K.Marasek
15.12.2008
3. Komunikacja człowiek - maszyna
Graficzny interfejs użytkownika
Katedra Multimediów
Komunikacja za pomocą mowy
To przyszłość
Komunikacja multimodalna: jw.+ wskazywanie
Czy to wszystko? Nie: haptic,
BCI (brain/computer interface)
K.Marasek
15.12.2008
4. Dlaczego mowa jako medium komunikacji?
How to Interact with Future Systems? Hartmut Raffler,
Siemens AG, AIK-Symposium, Usability Engineering, 10/04
The Challenges
Small devices speech
Katedra Multimediów
Service robots speech and gestures, artificial skin, emotions
Federation of Systems speech and gestures,emotions
(problem: knowledge representation)
e-Business active dialogue systems
interactive multimedia
Augmented reality systems speech, gestures
In the future conversational interfaces which are sensitive
to the user’s attention will play the most important role.
K.Marasek
15.12.2008
6. Mowa w komunikacji człowiek-maszyna
komunikacji człowiek-maszyna: wymiana informacji zakodowanej w taki sposób,
by mogła być przesłana przez dostępne fizyczne medium
Kodowanie: proces przygotowania reprezentacji informacji
Źródła wiedzy: reguły niezbędne do zbudowania symbolicznej wersji informacji i jej
przesłania poprzez kanał transmisyjny
Dekodowanie: modele źródeł wiedzy używane przez komputer: deterministyczne, lecz
Katedra Multimediów
często nieprecyzyjne kodowanie
Czesc!
zdania
frazy
słowa
litery
dekodowanie
Niech sekwencja parametrów akustycznych X=x1..xN jest wyjściem kanału
komunikacyjnego. Jeśli intencją mówcy było wypowiedzenie sekwencji słów
W=W1…WK to X jest zakodowaną wersją W
Źródło W Kanał X
informacji komunikacji
K.Marasek
15.12.2008
7. Modelowanie statystyczne w ARM
Obliczane jako odległość od modeli
Prawdopodobieństwo a priori
Prawdopodobieństwo a priori
sekwencji słów W
akustycznego sygnału A dla znanej
sekwencji słów W
Podejście Bayesa
P( A | W ) P(W )
Katedra Multimediów
P(W | A)
P( A)
Najbardziej prawdopodobna sekwencja
słów W dla danego sygnału Prawdopodobieństwo a priori sygnału
akustycznego A akustycznego A
Zwykle w metodzie
HMM:
arg max
W* p ( A,W )
W
(W –model słowa)
K.Marasek
15.12.2008
8. Jakie są ograniczenia techniczne ARM (speaker-independent)?
Rozpoznawanie cyfr przez telefon – digits
2k spontaneous
1k read
20k read
stopa błędu 0.3% 64 k broadcast 10k conversational
Stopa błędu maleje dwukrotnie co 2 100
lata dla ARM o średniej wielkości
słownika
Stopa błędów rozpoznawania mowy
Katedra Multimediów
spontanicznej jest co najmniej 10
dwukrotnie większa niż dla czytania
Stopa błędów jest wysoka dla
konwersacji wielu mówców w trudnym
akustycznie środowisku
Konieczne są wielogodzinne nagrania 1
treningowe aby przenieść system z
jednego środowiska do innego
Następuje wyraźne polepszenie
wyników statystycznego modelowania 0.1
w połączeniu z automatycznym
uczeniem systemów
ASR da się używać! MIT,2005
K.Marasek
15.12.2008
12. Systemy dialogowe
Zależne od aplikacji
(struktura dialogu i treść)
System o skończonej ilości stanów
(zwykle dla określonej domeny
dialogu)
Systemy typu chatter-bot
(niezależne od domeny?)
Katedra Multimediów
Kto ma inicjatywę
(komputer, człowiek, mieszana)
Detekcja konceptów i ich łączenie
(wyszukiwanie istotnych treści i
konkluzje)
Koncepcja i generowanie tekstów
(generacja kontekstowo zależnej
odpowiedzi)
K.Marasek
15.12.2008
13. Komunikacja międzyludzka a komunikacja głosowa człowiek-komputer
Komunikacja międzyludzka
Warstwa lingwistyczna – tekst wypowiedzi
Warstwa paralingwistyczna – nasz stosunek do tego tekstu
Warstwa ekstralingwistyczna – cechy mówcy, jego status społeczny
Katedra Multimediów
Komunikacja głosowa człowiek – komputer
brak przekazu treści emocjonalnych
węższy i czasowo-zależny kontekst przekazu (ile słów jesteśmy w stanie
zapamiętać?) w porównaniu z GUI
ograniczenia technologii rozpoznawania i syntezy mowy (błędy ASR,
nienaturalność SS, ograniczone gramatyki, słowniki i analiza semantyczna)
Pośrednictwo konstruktora systemu (skąd on wie jak ja chcę zapytać?)
K.Marasek
15.12.2008
14. Recepty na dobry interfejs głosowy
Kierowanie się zasadami użyteczności – przygotowanie serwisów
używanych przez określonych użytkowników,
w określonych warunkach,
w określonej potrzebie
Sensowna struktura systemu (nawet prostego)
Barge-in (przerywane komputerowi)
Użycie zawsze dostępnych komend kluczowych (Przerwij, Wróć, Zacznij od początku)
Katedra Multimediów
Potwierdzanie wprowadzenia danych
Jasna procedura korekcji i unikania błędów
Tutorial dla nowych użytkowników, szybkie wprowadzanie danych dla
zaawansowanych użytkowników
Staranne przygotowanie promptów (wypowiedzi komputera)
Reguła 7+/- 2 – zwięzłość i precyzja
Wykorzystywanie słów rozpoznawanych przez ASR (adaptacja użytkownika)
Użycie dodatkowych promptów (rozszerzonych) przy braku reakcji użytkownika lub
skracanie promptów przy szybkich reakcjach użytkownika,
Sensowne i poprawne językowo odpowiedzi (generacja tekstu), nadanie osobowości
Doskonałe rozpoznawanie mowy
Efektywne i elastyczne gramatyki, zbalansowany słownik
Wykorzystywanie miary wiarygodności hipotezy ASR
K.Marasek
15.12.2008
16. Miary jakości interfejsu głosowego
Query Density, opisująca ilość nowych Nd
koncepcji wprowadzonych w pytaniu 1 N u (i)
użytkownika
QD
Nd i 1 N q (i )
Nd- ilość dialogów, Nq(i)- całkowita ilość
zapytań użytkownika w i-tym dialogu,
Nu(i)- ilość unikalnych zapytań
Nd
1 N u (i )
Katedra Multimediów
Concept Efficiency, mierząca średnią
ilość wypowiedzi konieczną do CE
zrozumienia danego konceptu przez Nd i 1 N c (i )
system
Nd- ilość dialogów, Nc(i)- całkowita ilość
konceptów w i-tym dialogu, Nu(i)- ilość
unikalnych zapytań
Miary jakości ASR
Word Error Rate,
Sentence Error Rate
Kwestionariusze satysfakcji uzytkownika
K.Marasek
15.12.2008
17. Eksperymenty w projekcie LUNA
Nagrania dialogów człowiek-człowiek – 500 dialogów
Transliteracja i transkrypcja akustyczna
Analiza składniowa
Analiza semantyczna – wydzielenie konceptów
Trening modeli konceptów
Rozpoznawanie konceptów
Nagrania dialogów WoZ – 500 dialogów
Katedra Multimediów
Podobna analiza
Cel:
stworzenie systemu rozumiejącego koncepty użytkownika
Uproszczenie dialogu: user initiative
K.Marasek
15.12.2008
18. Serwisy głosowe speechprime.pl
Mowa to najbardziej naturalny sposób porozumiewania się ludzi, ale
niekoniecznie idealny sposób na dogadanie się z komputerem
Ze względu na ograniczenia techniczne póki co dla języka polskiego
nie ma szans na pełny dialog z komputerem
Aby interfejs głosowy był użyteczny musi być bardzo dokładnie
przemyślany i starannie przetestowany
Katedra Multimediów
Korzystanie z takiego interfejsu głosowego może sprawdzić
satysfakcję użytkownikowi
Strona techniczna:
Własny ASR: rozpoznawanie izolowanych fraz
TTS: Loquendo i dużo nagrań mówcy
Własny nadzorca dialogu
System wielowątkowy: obsługa wielu linii telefonicznych równocześnie, automatyczne
przełączanie do aktualnie wolnego operatora (system logowania dla operatorów)
Platforma telefonii: Dialogic Diva
K.Marasek
15.12.2008
20. Statystyki użycia PJWSTK
dziekanat 73%
rekrutacja 6%
rektorat 3%
księgowość 2%
Patrycja Szymańska 0.8%
Paulina Wojtczak 0.7%
portiernia 0.6%
Katedra Multimediów
Jan Jedliński 0.6%
K.Marasek
15.12.2008
21. Infolinia ZTM
Rozkład
jazdy
Jak
aktualności
Katedra Multimediów
dojechać
94-84
Zgłoszenie
Ulgi biletowe
skargi
Taryfa
przewozowa
K.Marasek
15.12.2008
22. Statystyki użycia ZTM
rozkład jazdy 42%
jak dojechać 31%
skargi 13%
ulgi 5%
taryfa 4%
aktualności 3%
Katedra Multimediów
Często dzwonią osoby
starsze - dostępność
K.Marasek
15.12.2008
24. Znane problemy
PJWSTK: ZTM:
Aktualizacje bazy numerów Naciśnij dowolny klawisz -> naciśnij 0
wewnętrznych Za trzecim błędem prosi o wciśnięcie „0”
Słaba współpraca z WWW Za czwartym błędem sam łączy do
Ogłoszenia – parsing <br/> operatora
<br/> <br/>
„na jaki dzień” – pierwsza opcja: „dzisiaj”
Katedra Multimediów
Błędy w RSS
Koniec rozmowy: użytkownik mówił
„dziękuje” a system odpowiadał: „nie
W planach do dodania: rozumiem” – teraz odpowiada „dziękuje
poczta głosowa (zostaw za rozmowę”
wiadomość): wymaga pewnych Do tej pory często używane są aparaty
zmian w centrali telefonicznej telefoniczne z tarczą – brak możliwości
wybierania tonalnego
W planach do dodania
Rozszerzenie systemu na 6 linii
Outbound: dzwonienie do klienta
Serwisy dla osób niepełnosprawnych
Standaryzacja: VoiceXML,
K.Marasek
15.12.2008
25. Czas na podsumowanie
Mowa to najbardziej naturalny sposób porozumiewania się ludzi, ale niekoniecznie
idealny sposób na dogadanie się z komputerem
Ze względu na ograniczenia techniczne póki co dla języka polskiego nie ma szans
na pełny dialog z komputerem
Aby interfejs głosowy był użyteczny musi być bardzo dokładnie przemyślany i
starannie przetestowany
Korzystanie z takiego interfejsu głosowego może sprawdzić satysfakcję
Katedra Multimediów
użytkownikowi
K.Marasek
15.12.2008