狠狠撸

狠狠撸Share a Scribd company logo
オンライン会议と音声认识
全員在宅?>会議はオンライン化
1.この时难聴者はどうなるのかを共有
2.今あるサービスを使ってみた结果を共有
1.この时难聴者はどうなるのかを共有
アクセシビリティ
チャートのカラーをアクセシビリティを考慮した色へ変更する
(tokyo?metropolitan?gov/covid19)
カラーをどのように設計するか(多様な意見も含めて)知見の塊
生活と意見:ソーシャルディスタンスなどと称してユーザー名や文
章にスペースを挟む行為についての苦情
学会?研究会等における情報保障マニュアル
アクセシビリティはおまけではないが、断絶された側が居ることと
その重要性に気付くのは難しい。
ということで、オンライン会議になってどうなったかをGW中に改
めてまとめた。
人間の聴覚の働き
空間がわかる?存在の認識
周囲の音がわかる?生命の保持
言葉がわかる?コミュニケーション、知性
音楽がわかる?感性
耳科学:難聴に挑むより
難聴者(私)と超えたい壁、音声認識周辺の技術
音の存在そのものに気づかない(音源検知,sounddetection)
音があるのはわかるが聞き分けができない(音源分離,sound
separation)
音は分かるが人間の声かそれ以外か分からない(音源同定,環境音認
識,(environmental)soundclassification)
人間の声なのは分かるがうまく文字に変換できない(音声認識,
speechrecoognition)
声に乗った感情が分からない(発話内容は解るがイントネーション
や抑圧が把握できない)
難聴者(私)に起こること
音声認識率は多分10?70%ぐらいを推移してる
全部聞こえてる保証は常にないから正確には分からない
話題を追跡できてればおおよそ推測ができる(こともある)
聞き取れないのが連続して一度文脈を失うと途端に破綻する
単純に音を大きくしても音源検知の精度が上がるだけでそれ以
外は基本的に下がる
唇や表情などの音声以外の情報も駆使して会話をしようと試みる
オンライン会議ではその情報が少ない
チーム活動ならWikiやBTS、PRなりで各々がやってる内容を踏まえれる
ので(聞こえてなくても)おおよそ推測は成り立つ。が、新しい情報(特に
固有名詞)には弱い。
オンライン会議に求めること
会話に参加できる(≒その時の話題?内容が低コストで把握できる)
リアルタイムで認識率が低くても良いので参考になる情報が欲しい
後で知っても会話に参加できない
会議システムと同じ画面に出て欲しい
視線移動が多いと情報を取り逃す
且つ自分以外にも同時に共有したい
ゆっくり発言したり言葉を変えたりと精度改善が試みやすい
音声出力はできればヘッドホンに流したい
認識率を少しでも上げるたい
2.今あるサービスを使ってみた结果を共有
Zoom
audiotranscription。リアルタイムで提供されてない、英語だけ
字幕機能もあるが手入力かRESTAPI経由で提供された内容を映す機
能
GoogleMeet
captions。英語だけ
英語での認識率は悪くなかった
Skype
livecaptions&subtitles。日本語にも対応している。認識率はそこ
そこ
現状のコストに対するベストはこれ。友人とのオンライン呑みは
Skypeでやってる
ただし有効にできない時もある。再現条件が不明
GoogleDocument+オンライン会議ツール
GoogleDocは音声入力が可能
やり方
1.PCの音声をオーディオインターフェースなりでルーティングして
GoogleDocumentの音声入力に流し込む
2.PCの出力画像を仮想カメラ入力にしてオンライン会議システムに流
す(人の顔が映るところで内容が分かる)
欠点
1.(共通)全員の発言が混ざった状態で音声認識にかけられるので、認
識率がガタ落ちするかつ誰の発言か記録に残らない
2.(共通)発言が被るとより悪化する
3.(GoogleDoc固有)上の状態や雑音が混ざると認識を諦めるのか、音
声入力を一度オフにしてオンに入れ直さないとそれ以降入力が行わ
れない(これが一番厄介)
GoogleDocument+オンライン会議ツール(2)
会議参加者全員が各自で音声入力直接行えれば一番良いかもしれない。
ただしやり方に癖があるし、タイムライン形式で交互に入力を切り替え
られるわけではないので統合も難しい。
理想
10:00 Aさんの発言1
10:01 Bさんの発言1
10:03 Aさんの発言2
10:03 Cさんの発言1
現実
Aさんの発言1Aさんの発言2Aさんの発言3Aさんの発言4
Bさんの発言1Bさんの発言2
Cさんの発言1
それぞれが独立した音声入力なのでこうなる。
UDTalk+オンライン会議ツール
UDTalkはiOSかAndroidでのみアプリを提供している。PCもあるが認識
結果を閲覧?編集する機能があるだけ。
やり方
1.オンライン会議ツール(PC)?>オーディオインターフェースor
SoftwareでWiFi経由で流すorPCの真横にスマホを置く?>UDtalk
欠点
1.GoogleDocsと同じ(共通)の問題がある
2.認識結果の共有方法で効率的な手段がまだ見つけられていない
画面共有ができるなら楽だがミーティングでは他の人のPC画
面を映すのが殆どなので出来ない
PCはブラウザアクセスではなくバイナリパッケージをインス
トールする必要がある
自分一人だけ見るならこれが一番(Skypeよりも)認識率が良い
Julius+IPtalk+オンライン会議ツール
経験上、認識率が下がるのは目に見えてたのでやっていない。
参考:音声認識技術の変遷と最先端(2018/07)
(おまけ)みえる電話
NTTdocomoが提供している電話内容のリアルタイム可視化+入力した
文字の音声通話。
双方向で独立して認識しているようで認識率も悪くない。UIも悪くなく
電話の苦がだいぶ軽減された。
現状の有力候補
1.UDTalkの省エネ化
2.GoogleDocsを各自で入力して貰う
3.Skypeを使う
4.Zoomが良い感じのtranscriptionを提供してくれるのを願う

More Related Content

オンライン会议と音声认识