狠狠撸

狠狠撸Share a Scribd company logo
歌声分析のエンタテイメント応用
音楽検索からカラオケまで
伊藤 彰則
東北大学大学院工学研究科
aito@spcom.ecei.tohoku.ac.jp
@akinori_ito
1
はじめに
? 歌声分析の歴史は結構古い
– Wolf+, “Quantitative Study of Singing
Voice,” JASA, 1935
声の高さとパワーの標準
カーブ(音声は母音「あ」).
広い範囲で大きい声が出せ
れば,それは良い歌唱者だ
ろうという考え方による分析.
標準カーブに対して,初心
者と経験者の違いなどが考
察されている
2
誰の歌声を分析するのか
? プロ(あるいはプロを目指す学生)の
クラシック歌唱が多かった
– Wolf+, “Quantitative Study of Singing Voice,”
JASA, 1935(前述)
バリトン歌手と音大生
– Sungberg, “The Acoustics of the Singing
Voice”, Scientific American, 1977
ソプラノ歌手
– Omori+, “Singing power ratio: Quantitative
evaluation of singing voice quality”, J of
Voice, 1996
プロ歌手+セミプロ歌手
3
誰の歌声を分析するのか
? プロでなくても歌うことができる
– コミュニケーションの手段として
? 歌声で何かを伝える(メロディ情報など)
– 楽しみのために
? 誰でも歌って楽しむことができる
? カラオケなど
4
歌声分析の応用の広がり
伝える楽しむ
素人的
プロ的
歌声?
ハミング検索
カラオケ採点
歌唱練習補助
歌声加工
ピッチ補正
モーフィング
歌手分類
MIR応用
5
本日のお題
? 歌声?ハミング検索
– 声でメロディ?歌詞を入力
? メロディマッチングの正確性?高速性
? 歌詞をどう使うか
? カラオケ採点(歌唱力評価)
– カラオケ採点にまつわる技術
– 歌のうまさと「熱唱度」
6
ハミング検索
? ハミング(スタッカート歌唱)や歌詞付
きの歌唱をキーとした音楽検索
– Query by Humming (QbH)
– Query by Singing/Humming (QbSH)
? 実用化も (Midomi等)
1 xxxxxxx
2 yyyyyyy
3 zzzzzzzz
7
タ タ タ タ タ
ハミング入力音楽検索システム
? 入力音声から一音一音の高さ?長さを抽出し検索
8
区間検出
(パワーの変化から検出)
特徴量抽出
(音高?音長)
検索
(類似度or距離計算)
ハミング入力
(スタッカート歌唱)
メロディ相対化
検索結果
データベース
ハミング入力音楽検索システム
? DPマッチングを用いたシステム
– Ghiasら(1995),園田ら(1998)
? Hidden Markov Model(HMM)を用
いたシステム
– Meekら(2001)
? 特徴量は【相対音高】と【相対音長】
? 楽曲をフレーズ単位に分割し,それぞれのフレー
ズ毎でHMMモデルを作成
? 入力から特徴量を抽出し,尤も一致するHMMモデ
ルを選択
9
QbSHの問題点と解決法
(自分の研究を中心に)
? 精度を上げる
– F0抽出の精度に限界
? 複数のF0候補を使う
? 連続する音符のF0の比を直接利用
? データベースをどう用意するか
– MIDI
– 音響信号から直接データベースを作成
– ユーザによるハミングをデータベースとして利用
? 歌詞の利用
– 歌詞のある歌声をキーとして利用
? 計算量
10
3次元DPマッチングによる高精度化
? ハミング入力の時間軸,データベースの時間軸,
F0候補の3次元空間上で最適な候補をDPにより
連結
11
時間
時間
候補点軸
個数
各候補点は信頼度を持つ
データベース軸
Heo+, IEEE Trans. Multimedia, 2006
音の絶対的な高さによらない特徴量
12
相互相関関数
対数周波数領域
パワースペクトル
対数周波数領域
パワースペクトル
主成分分析による次元圧縮
【音程特徴ベクトル】
ピーク音程の検出
Suzuki+, J. Information Processing, 2009.
音響信号からのデータベース構築
? 複数F0候補データベースの構築
– 音響信号の周波数解析
– F0存在確率密度関数の導出
? pF0
t(F):時刻tにおいて,周波数FにF0が
存在する確率
? PreFEst-core(Goto,1999)を用いて算出
– 混合音からメロディーラインのF0推定
– 高調波構造をモデル化し学習
– F0存在確率密度関数からF0候補の選択
? pF0
t(F)から数個のピークを取り出し,F0候補
とする
? 各フレームごとのF0候補を時間軸上で並べる
13
time
log frequency
音楽音響信号
スペクトログ
ラム
F0存在
周波数解析
確率密度関数算出
候補選択
確率密度関数
複数F0候補
データベー
ス
Ito+, Proc. ICALIP, 2010.
14
歌詞のあるクエリからの検索
? 有限状態文法(FSA)を用いた歌詞認識
– 楽曲検索時に歌われるのはデータベースに存在す
る曲の歌詞
? 従来法では正しい歌詞以外の単語列も出力
正しい歌詞しか出力しない有限状態文法を使用
? 歌声適応による音響モデルの改善
– 読み上げ音声と歌声では音響的特徴が異なる
話者適応手法により歌声モデルを作成
Suzuki+, EURASIP J. on Advances in Signal Processing, 2007
認識に用いる有限状態文法(FSA)
<s> </s>
…
…
…
は
る
が き た た
は
な
が さ
く
は
な
さ
く
ど
こ
か
で は
る
が だ
す
…
曲A
1番
曲A
2番
曲M
N番
<s>:開始記号
</s>:終了記号
認識結果:はるがきた ? 曲A
15
カラオケにおける歌唱の評価
? 一般には「歌のうまさ」を評価
– カラオケの歴史と同程度に古い
– さまざまな技術が用いられている
– カラオケの技術発展と同調
78点
16
カラオケの歴史
年代 特徴
1970 カラオケ誕生,8トラックテープ
1980 カラオケ採点誕生,CD, LD, VHDカラオケ
1990 大容量CD/VCD/LDオートチェンジャー
→通信カラオケの誕生と台頭
2000 着メロ?音楽配信連携,ゲーム機?動画サイト連携
2010 動画配信,スマホ連携
(一社)日本カラオケ事業者協会「カラオケ歴史年表」より
17
カラオケ採点の研究
? カラオケ採点関係の技術のほとんどは特許
? 方式の変遷
– 標準歌唱との比較→ガイドメロディとの比較
? 歌唱テクニック採点の導入
– ビブラート,こぶし等(2008~2009)
? 学術的研究
– 精密な採点アルゴリズム(竹内+,2010)
– リファレンスを使わない歌唱力評価(中野+,
2007)
18
カラオケ採点の特許(?)
? 日立製作所「音程練習機」,1981
入力1
入力2
スイープ音
発生器
差分周波数
信号生成
特許公開公報 特開昭56-150783より19
カラオケ採点の特許
? シャープ株式会社
「歌唱能力などの評価装
置」 1986
– 各オクターブでの特定の音名
の音を通過させる櫛形フィル
タを12個用意
– 対応するフィルタの出力電圧
が一致するかを判定
特許公報 特公昭61-26066より 20
カラオケ採点は何を目指すのか
? 娯楽なので厳密な採点はあまり意味がない
– 曲の後半の採点を重視(ヤマハ,1997)
– 曲の難易度に合わせて採点結果を調整
(ブラザー,1998)
– 1番と2番で一貫して標準メロディと違う歌い方
をした場合はそれを評価(第一興商,1999)
? ソーシャル採点
– 歌の後の拍手やアンコールの掛け声を検出して採
点(桑原,1995)
– 歌を聞いた人が点数を入力して,それを集計する
(エクシング他,1997)
21
カラオケ採点は何を目指すのか
? ゲーム性の導入とか?
– スコアに合わせた占いを表示
(ビッグサンズ,1992)
– 採点をすごろく型にする
(日本ビデオセンター,1992)
– 対戦形式の採点(エクシング他,1995)
– スコアが低かったら途中で曲を停止
(ソニー,1997)
– 歌合戦形式の採点(ヤマハ他,1998)
– 陸上の競争や格闘ゲームなど
(ヤマハ他,1998)
– 曲が盛り上がったら紙ふぶき(ヤマハ,2002)22
カラオケ採点は何を目指すのか
? 【意見】ユーザは「より楽しむ」ために
歌う
– カラオケ採点は「批判」であってはいけない
– 事実に基づいてユーザをほめる
? 「歌のうまさ」以外には何があるのか?
– 一生懸命歌っている(ように聞こえる)か
– 感情がこもっている(ように聞こえる)か
– その他のテクニック(誰かに似ているとか)
23
熱唱度
? 歌唱のうまさではなく「一生懸命さ」
– 「長期間努力して獲得したスキル」ではなく
「その場での努力」を評価(刹那的)
? 科学的?技術的問題点
– そもそも「熱唱」の知覚に一貫性があるの
か?
– あったとして、それが自動的に測れるのか?
24
熱唱度は知覚できるか
? データセット
– 「熱唱」「普通」の指示で素人が歌った歌唱音声
– 歌唱者34名 「いとしのエリー」
? 2セット、歌い方2段階、4フレーズ
– 評価者30名 0,1,2 の3段階(大きいほど熱唱)
? 分析
– 同一フレーズに対する「自分の評価値」と「自分
以外の評価値平均」との相関の分布を見る
25
熱唱度は知覚できるか
? 多くの評価者が0.7~0.9に分布する
– 評価者間の「熱唱度」の知覚傾向は似ている
26
熱唱度は知覚できるか
? 歌唱者の「熱唱」「普通」の違いは知覚
されるのか
27
熱唱度は人による
? 「熱く歌う人」の普通は「熱く歌えない
人」の熱唱よりも熱唱
28
熱唱度の自動評価
? 3つの特徴量を使用
– A特性パワー、ずり下げ、ビブラート
人間による評価値との相関 0.66
29
自動評価値と主観評価値
? 比較的高い相関
– 右図は学習と
評価が異なる
楽曲の場合の
結果
– 線形回帰
30
むすびに代えて
? 歌声分析のエンタテイメント応用例
– 「ハミング検索」と「カラオケ採点」
– どちらも「信号処理」「機械学習」「パター
ン認識」の応用例―どちらかといえば基本的
な
? 「精度」よりも「価値創造」
– その技術は応用先にとってどのような価値を
生むのか?
31
謝辞
? この発表で紹介した研究内容は多くの学生?
教員との共同研究です
– 牧野正三(東北文化学園大学)
– 鈴木基之(大阪工業大学)
– 伊藤仁(東北工業大学)
– Sung-Phil Heo
– 市川拓人
– 小杉優
– 細谷徹
– 大道竜之介
32

More Related Content

歌声分析のエンタテイメント応用