際際滷

際際滷Share a Scribd company logo
NUGU???????????
1.????????
2.NUGU????????
3.??????
4.????????
5.????????
C ???? ??? ???
??? `??`(?? ???)
?? ??? ??(?? ??)
?? ??(?? ??)
??? ??(???? ????)
SKT ??
1997
2008
2011
2015
2016
NUGU mini
T map x NUGU
Btv x NUGU
NUGU candle
´
C SKT ???? ???
SK Broadband (¨14.09) SK???(¨14.11), B2B´
CU???(¨18.7)
NUGU(¨16.09)
CU???(¨18.7)
Tmap 5.0(¨16.12),Tmap x NUGU(`17.09)
??? ?? ?? ????
???, ???, ??? ??
??? ????, Echo ??
Wake-up, TTS, ?? ??,
??, ??, ????, ´
??? ??? ?? ?
Google ???? ? SK ???
: ???? ???? (?? ??)
??? ?? ??? ??
??? ??, ???? ??
?? Device
?? ?? ?? ??? ??
Device ??
??? ?? ?? ??
? ??? Application
?? 晒, ?? ?? ??
??? (Spontaneous) ????
??? ????
??? ????
Dictation
´
?? ??? ?? (???, ????)
? ?? ??? ?? ??
? ?? ?? ??
? ??? ?????
?? ??? ??? ??
? ???? ??
? ??? ??
?? ?? ?? ??
3rd Party Toolkit Open
? NUGU ???
? T-map x NUGU
? Btv x NUGU
C ?? ??, ??? ??
???? (???, ?? ??)
Automatic Speech Recognition = Speech-to-Text
?????
Input: Speech Acoustic Signal Output: Text
???? (???, ?? ??)
??? ??? ???? ??
= ??? ??? ?? ????? ??
= ??? ????? ?? ????? ??
= Classification(Detection) ??
?????
Input: Speech Acoustic Signal Output: Best Matched Text
?????
?????
´
´
Best
C ???? ?? ??
Decoding
?????
Text
MFCC
HMMGMM
Pronunciation
Lexicon
Language
Model
Acoustic
Model
N-gram
Feature ?? ??? ?? ?? ???
C Deep Learning ?? (AM)
Decoding
?????
Text
MFCC
HMMDNN
Pronunciation
Lexicon
Language
Model
Acoustic
Model
N-gram
Feature ?? ??? ?? ?? ???
Log
Spectrum
Observation
??? GMM ??
DNN?? ??
C Deep Learning ?? (LM)
DNN ?? ????
C RNN ????
C LSTM ????
C ??
? ?? n-gram?? ? context ?? ??
? Training corpus? ???? ??? ??? ?? ? ??
C ???? ?? ??
? n-gram ?? n-best ?? lattice ?? ?? ??
? n-best ?? lattice? RNN/LSTM ???? ??
? RNN/LSTM ??? n-gram ??? ???? rescoring
C Deep Learning ?? (LM)
GRU1) + NCE2) : ?? ?? sequence ? ?? ????, relatively 10~20% ?? ??
??? ??? ??? ???
??? ??? ??? ???
input
output
hidden
RNNLM (Recurrent Neural Network Language Model)
???
???
???
???
???
</s>(?? ??)
???
(context)
(?? ??)
1) Gated Recurrent Unit 2) Noise Contrastive Estimation
C Deep Learning ?? (??????)
Bi-directional LSTM: ?? sequence ? ????(+????)
C PLM (Personal Language Model)
Personal Language Model C ex) T map ????
C ???? ??? ???? ????? ???? ???? ??? ?
??? ??? ??
???? ?? (wFST)
?? ?? ??
(FST)
Class
C DNN Wakeup
DNN Wakeup
C ??? `???¨? ?? ??? ? ??? ?? Deep Learning ??
??? ?? ??
start end
???
label: 1
Keyword? ? non-Keyword? ?
label: 0 label: 0 label: 0 label: 0label: -1
C DNN EPD (End-Point Detection)
DNN EPD
C ??/??? ??? ???? ??? ??? ?? ??
0 0.5 1 1.5 2 2.5
x 10
4
-2000
0
2000
4000
Sample
Restaurant(SNR 20dB)
EPD ??
VAD ?? tV
tE
?? ?? ???
C ??? ???? (NUGU ???)
??? ????
C ?? ???? ?? ?? ? ????? ??? ?? ?
??
??
??
??
DNN ???? ?? ??
Multi-mic ???
? ?? ??? Augmentation? ??
??? ???? ????? ??
(RIR, Room-impulse-response ??)
? ??? ???? ??? ????,
Gain ??, ?? ?? ??
C ????
i-vector ?? ??GMM ?? ??
C ???? Voice Analytics ???
???? Voice Analytics ???
C ??: ???? ???? ??? ?? ??
? ??? ? ?? ??? ???
? ??? ??? ?? ??? ??? ?? ??
C ???? ?? ??? ????? ?? ????
C ???? ???? ????
? ??? ?????? ??? ??
? ????? ?? ?? ?? ??
? ????? ???? ?? ??
? ??? ?? ??
C ???? Voice Analytics ???
- ?? ?? ??
? Spontaneous Speech Recognition
C ???? ?? ??
C ??? ??
C ??? ???? ??? ???? ??
C ? ??, ??? ? ????? ??
? vs. NUGU (Speaker, Set-top Box, T map)
C ??? ??? ?? (????? ?? ??? ??)
C ??? ??? ????? ???? ????? ?? (??? ???? ??)
C ?? ??? ????
? ???? ??? ???
C Transcription? ??? (???? ??, ?? ??)
C ??? ??? ???
C ?? C Text alignment? ???
C ?? ??? ????
? ???? ??
C ?? ?? ?? (Transcription ?? ?? ??)
C ?? ??? ?? (?? ?? ??? ? ??)
C ?? ??? ????
? ???? ?? ??? ? ????
C ???? ?? transcription ??? ???
C ??? ???
C ??? ??? ?? ???? ??
? ??? ??????? ? ?? ?? ???? ? ?
????? ???? ??? ???
???
???? ?? SK ??
? ? ? ?? ???? ??? ? ???? ?? ???? ?? ???? ???
??? ?? ??? ??? ?? ?? ?????? ?????? ?
??? ???? SK ?? ? ??? ?? ?? ???? ?? ??? ??? ???
?? ???? ?????? ? ????? ??? ?? ???
?? ??? ?? ????
??? ???
NUGU ???? ?? ? ?? ??

More Related Content

[NUGU Conference 2018] ?? B-1 : ???? ?? ? ?? ??

  • 3. C ???? ??? ??? ??? `??`(?? ???) ?? ??? ??(?? ??) ?? ??(?? ??) ??? ??(???? ????) SKT ?? 1997 2008 2011 2015 2016 NUGU mini T map x NUGU Btv x NUGU NUGU candle ´
  • 4. C SKT ???? ??? SK Broadband (¨14.09) SK???(¨14.11), B2B´ CU???(¨18.7) NUGU(¨16.09) CU???(¨18.7) Tmap 5.0(¨16.12),Tmap x NUGU(`17.09) ??? ?? ?? ???? ???, ???, ??? ?? ??? ????, Echo ?? Wake-up, TTS, ?? ??, ??, ??, ????, ´ ??? ??? ?? ? Google ???? ? SK ??? : ???? ???? (?? ??) ??? ?? ??? ?? ??? ??, ???? ??
  • 5. ?? Device ?? ?? ?? ??? ?? Device ?? ??? ?? ?? ?? ? ??? Application ?? 晒, ?? ?? ?? ??? (Spontaneous) ???? ??? ???? ??? ???? Dictation ´ ?? ??? ?? (???, ????) ? ?? ??? ?? ?? ? ?? ?? ?? ? ??? ????? ?? ??? ??? ?? ? ???? ?? ? ??? ?? ?? ?? ?? ?? 3rd Party Toolkit Open ? NUGU ??? ? T-map x NUGU ? Btv x NUGU C ?? ??, ??? ??
  • 6. ???? (???, ?? ??) Automatic Speech Recognition = Speech-to-Text ????? Input: Speech Acoustic Signal Output: Text
  • 7. ???? (???, ?? ??) ??? ??? ???? ?? = ??? ??? ?? ????? ?? = ??? ????? ?? ????? ?? = Classification(Detection) ?? ????? Input: Speech Acoustic Signal Output: Best Matched Text ????? ????? ´ ´ Best
  • 8. C ???? ?? ?? Decoding ????? Text MFCC HMMGMM Pronunciation Lexicon Language Model Acoustic Model N-gram Feature ?? ??? ?? ?? ???
  • 9. C Deep Learning ?? (AM) Decoding ????? Text MFCC HMMDNN Pronunciation Lexicon Language Model Acoustic Model N-gram Feature ?? ??? ?? ?? ??? Log Spectrum Observation ??? GMM ?? DNN?? ??
  • 10. C Deep Learning ?? (LM) DNN ?? ???? C RNN ???? C LSTM ???? C ?? ? ?? n-gram?? ? context ?? ?? ? Training corpus? ???? ??? ??? ?? ? ?? C ???? ?? ?? ? n-gram ?? n-best ?? lattice ?? ?? ?? ? n-best ?? lattice? RNN/LSTM ???? ?? ? RNN/LSTM ??? n-gram ??? ???? rescoring
  • 11. C Deep Learning ?? (LM) GRU1) + NCE2) : ?? ?? sequence ? ?? ????, relatively 10~20% ?? ?? ??? ??? ??? ??? ??? ??? ??? ??? input output hidden RNNLM (Recurrent Neural Network Language Model) ??? ??? ??? ??? ??? </s>(?? ??) ??? (context) (?? ??) 1) Gated Recurrent Unit 2) Noise Contrastive Estimation
  • 12. C Deep Learning ?? (??????) Bi-directional LSTM: ?? sequence ? ????(+????)
  • 13. C PLM (Personal Language Model) Personal Language Model C ex) T map ???? C ???? ??? ???? ????? ???? ???? ??? ? ??? ??? ?? ???? ?? (wFST) ?? ?? ?? (FST) Class
  • 14. C DNN Wakeup DNN Wakeup C ??? `???¨? ?? ??? ? ??? ?? Deep Learning ?? ??? ?? ?? start end ??? label: 1 Keyword? ? non-Keyword? ? label: 0 label: 0 label: 0 label: 0label: -1
  • 15. C DNN EPD (End-Point Detection) DNN EPD C ??/??? ??? ???? ??? ??? ?? ?? 0 0.5 1 1.5 2 2.5 x 10 4 -2000 0 2000 4000 Sample Restaurant(SNR 20dB) EPD ?? VAD ?? tV tE ?? ?? ???
  • 16. C ??? ???? (NUGU ???) ??? ???? C ?? ???? ?? ?? ? ????? ??? ?? ? ?? ?? ?? ?? DNN ???? ?? ?? Multi-mic ??? ? ?? ??? Augmentation? ?? ??? ???? ????? ?? (RIR, Room-impulse-response ??) ? ??? ???? ??? ????, Gain ??, ?? ?? ??
  • 17. C ???? i-vector ?? ??GMM ?? ??
  • 18. C ???? Voice Analytics ??? ???? Voice Analytics ??? C ??: ???? ???? ??? ?? ?? ? ??? ? ?? ??? ??? ? ??? ??? ?? ??? ??? ?? ?? C ???? ?? ??? ????? ?? ???? C ???? ???? ???? ? ??? ?????? ??? ?? ? ????? ?? ?? ?? ?? ? ????? ???? ?? ?? ? ??? ?? ??
  • 19. C ???? Voice Analytics ???
  • 20. - ?? ?? ?? ? Spontaneous Speech Recognition C ???? ?? ?? C ??? ?? C ??? ???? ??? ???? ?? C ? ??, ??? ? ????? ?? ? vs. NUGU (Speaker, Set-top Box, T map) C ??? ??? ?? (????? ?? ??? ??) C ??? ??? ????? ???? ????? ?? (??? ???? ??)
  • 21. C ?? ??? ???? ? ???? ??? ??? C Transcription? ??? (???? ??, ?? ??) C ??? ??? ??? C ?? C Text alignment? ???
  • 22. C ?? ??? ???? ? ???? ?? C ?? ?? ?? (Transcription ?? ?? ??) C ?? ??? ?? (?? ?? ??? ? ??)
  • 23. C ?? ??? ???? ? ???? ?? ??? ? ???? C ???? ?? transcription ??? ??? C ??? ??? C ??? ??? ?? ???? ??
  • 24. ? ??? ??????? ? ?? ?? ???? ? ? ????? ???? ??? ??? ??? ???? ?? SK ?? ? ? ? ?? ???? ??? ? ???? ?? ???? ?? ???? ??? ??? ?? ??? ??? ?? ?? ?????? ?????? ? ??? ???? SK ?? ? ??? ?? ?? ???? ?? ??? ??? ??? ?? ???? ?????? ? ????? ??? ?? ??? ?? ??? ?? ???? ??? ???
  • 25. NUGU ???? ?? ? ?? ??