狠狠撸

狠狠撸Share a Scribd company logo
探索的検索のための 音声入力インタフェースの検討 西本卓也(東京大学) 岩田英三郎 ? 櫻井 実 ? 廣瀬治人 (ユニバーサルロボット)
探索的検索と音声入力 欲しい情報がどこにあるか分からない 巨大なメニューを操作するタスク ショッピングサイト 情報家電の操作も キーワード検索が有効 ブラウジングも必要 自分の要求と候補を比較 キーボードの使えない情報機器 情報家電、モバイル PC ならキーボード入力による検索が可能 要求=音声入力を有効に使いたい
HMI 原則と音声インタフェース 原則に基づく音声認識の応用  [西本他 96 /予稿] 基本原則 操作労力、システムの透過性、頑健性 構成原則 初心者保護、熟練者優遇、上級利用移行支援 導入原則 有用性、適合性、妥当性 本研究の目的 探索的検索における音声利用の可能性を示す
システムの透過性 音声認識=広く使われているとは言えない 課題:頑健性(耐雑音?残響?話者など)だけ? 応答遅延は使いにくさの要因? 認識完了を待たなくてはならない 人間は相手の表情から反応を読む 一方が話している間も頷いたり首をかしげたり、 聞き取りにくければ直ちに「え?」と聞き返す 分かっているのか分かっていないのか 反応がある人とは会話しやすい [嵯峨山他  04 ] 要求:入力発話中に逐次反応するシステム 従来:性能は重視するが応答遅延に寛容
音声認識におけるリアルタイム性 リアルタイム音声認識の技術 例:放送字幕システム  [安藤 03 ] ニュース音声を遅れ2秒以内で(要求) 2パスデコーダを改修して一定フレームごとに結果を確定 発話中にうなずく対話システムの試作 NTT や早稲田大学など WFST 利用の提案など 可能性を示すデモ 汎用的な枠組みとしての評価はなされていない 効率性には貢献していない
音声入力と効率性 すべて音声で操作を行うと最後はうんざり 代替手段の方が妥当な場合も多い 全体として「楽であること」が考慮されていない 無駄な発話をさせない音声 IF が必要 音声認識は人間に不必要に喋らせる? マルチモーダル+インクリメンタル検索? 無駄な入力をさせないために
対面朗読の分析とウェブ実装 探索的検索タスクとしての「お弁当選択」 対面朗読者の技能をシステム化 視覚障害者の指摘  [西本他 07 ] キーボードによる操作の方が効率的 音声対話は必ずしも快適ではない 選択肢が適切であれば音声入力は不要? 常に取り消しができることが重要 試行錯誤を許容すること 検索のフィードバック=候補数の減り方 効率的に操作できているという実感
効率性とインクリメンタル検索 候補が減っていくことを可視化 キーボード  : Emacs, iTunes, ... ajax : Google Suggest ラスキン「ヒューメイン?インタフェース」 インクリメンタル検索の有効性を主張 音声入力での実現可能性も示唆 詳細は不明 提案=「音声インクリメンタル?サーチ」 発話中に候補やその個数を逐次表示 内容が確定したら発話を中断してもよい
画面例:初期状态
画面例:详细表示と决定操作
画面例:部分発話による絞り込み 「ハンバーグ」->「チキン」と発話 認識結果=「ハンバーグ」「チキンカツ」
提案システム:設計と画面構成 クエリーと候補の視覚化 サーチ:音声入力、語彙 リセット操作 タイマー:発話終了後 10 秒でクエリー消去 「音声入力クリア」ボタン 比較パレット リセット操作:「開始」ボタン インスペクター:乗せると詳細情報 決定ボックス:乗せると決定 関連:オラビーの開発  [西本他  06 ]
システム透過性と直接操作 間接操作=秘書型 「対話」に主眼をおいた音声 IF 音声+間接操作 欠点:エージェントは直接の対象ではない 直接操作=道具型 「マルチモーダル」に主眼をおいた音声 IF 音声+直接操作 システム透過性に貢献? 視覚障害者が求めるものに近い? 文献: Interface as Mimesis  [Laurel 86]
HMI 基本原則への適合 操作労力最小化の原則 部分発話を許容:音声入力の労力を最小化 システム透過性の原則 フィードバックの原則 より低遅延で多くの情報を 提案=データベース検索を用いて音声入力を可視化 頑健性の原則 提案=音声で候補選択、他のモダリティで決定
HMI 構成原則への適合 初心者保護の原則 直感的な操作と画面構成 熟練者優遇の原則 最後まで発話しなくてもよい 省略を許すことがインクリメンタル検索の意義 上級利用移行支援の原則 語尾の省略が可能=逐次可視化で教示
予備的評価 仮説 低遅延でユーザにフィードバックができれば、 完璧な認識でなくても許容されるのではないか? 検証( 2007-07 ) 2 種類のシステムを比較 検索結果をリアルタイムに表示するシステム 第 2 パスまでの認識結果を待って結果を返すシステム 少人数ながら仮説に対して賛同が得られた 被験者 5 名 特に項目名が長い場合に有効、との意見
語彙と認識結果 多くの項目名=他の名前のサブワード 項目名とサブワード発話がマッチしやすい のりめんたい ← めんたい ちきんかつ ← ちきん ちんじゃおろーす ← ちんじゃお
国際ロボット展( 2007 年 11 月)
国際ロボット展の反応 評価者=約 30 人 接話マイク(ヘッドセット) PTT は使用しない 騒音の大きい展示会場 候補数を可視化する入力プロセス 「途中まで音声で」「最後は手で」の有効性を評価 対象を直接操作する GUI ここまでの有効性は確認できず ピンと来ていない?
まとめ 探索的検索のための音声入力利用 とにかく早く反応させたい 言いたいことが通じたら最後まで言う必要はない 可視化:人間のように素早く理解?応答させたい 音声認識の実装に関する検討ではない WFST など既存提案も選択肢 意味的合理性と実時間性の重要性? 意味的合理性=候補絞込みに有用な情報の増加 擬人化エージェントを否定する提案ではない インクリメンタルサーチの知見をエージェント動作制御に?
音声による探索的検索の可能性 発声してみると自分の欲しいものが分かる とにかく喋ってみる 思っていること->求めていること 試行錯誤を促す効果? 展望:検索と推薦 候補の自動グループ化 音声コマンドのヒント提示 属性検索の場合に有効
今後の課題:評価 遅延の大小と使いやすさ 入力発話に対してどのくらい低遅延になったか ロギング? どのくらい早い応答が必要か 低遅延であることがどう有効性につながる? 不安を感じにくい 心的負荷、主観評価 ユーザがコツをつかみやすい タスク成功率 発話の音響的尤度
探索的検索のための音声入力インタフェースの検讨
実装の環境 Julian rev.3.5.2-galatea (fast) ネットワーク文法に対応する連続単語音声認識 孤立単語を受理する文法 第1パス結果の逐次出力機能 Visual C++ 2005 で実装 GLUT サーバモードで実行される  Julian  と  socket  通信  CodeGear C++Builder 2007 で実装 VCL を使用 ドラッグ&ドロップの GUI
タスク:認識候補語彙 孤立単語のみを認識する文法を作成 弁当屋のメニュー( 73 種類) 玉子丼、のり弁、おにぎりセット、のりメンタイ、チキンカツ、チキンカツ&ハンバーグ、シャケ弁、親子丼、ビーフカレー、五目ごはん、??? サブワード候補の選択 2 ~ 5 モーラの 12 単語 ハンバーグ、カレー、丼、カツ、和風、洋風、中華、 フライ、御膳、デラックス、天、鶏
Julian が出力するイベントと情報 本実装では発話中に得られる情報のみ使用  発話開始を検出 入力同期で第 1 パスを実行(単語対文法を適用) 指定した間隔でフレームごとの 1 位候補を出力 発話終了を検出 第 1 パス終了イベント、 1 位候補を出力 第 2 パスを実行 ネットワーク文法を適用、 N-best 計算 第 2 パス終了イベント、 N 位候補を出力
実装(音声) 入力音声を含む候補を選択して表示 Julian から得られる音声の音素記号 第 1 パス実行中の結果を 50ms 毎に取得 クエリーの追加 第 2 パス決定を入力終了イベントとして利用 発話が完了すると、さらに絞込みが可能
評価:比較実験の可能性 候補数だけを視覚化すればいい? リスト表示ではなく 候補を数字で出す?棒グラフのような視覚化? 確定の仕方 アプリケーション情報を用いる必然性? 1pass  が一定フレーム不変になったら確定する ユーザが PTT を離したら確定する 実験用 PTT マイクを作りたい

More Related Content

探索的検索のための音声入力インタフェースの検讨

Editor's Notes

  • #15: 音声応答システムと効果音の考察[西本 2001? ]
  • #27: -progout # 第 1 パスで解析途中から漸次的に結果を出力 -proginterval 50 # -progout 時の出力のインターバル ( 単位: msec) -module # サーバーモジュールモードで起動 -outcode WLPSCwlps