狠狠撸

ベイズ符号化アルゴリズムを用いたテキストデータ圧縮中野晶　小泉大城　松嶋敏泰　早稲田大学　理工学部　経営システム工学科

研究背景　（1／6）データ圧縮とは？シンボル系列を，別の短い系列（符号語）に変換する技術情報源モデル m 符号化復号化シンボル系列 x n 符号語 P ( x n | m ) シンボル系列 x n 受信者

研究背景　（2／6）データ圧縮の評価基準平均符号長　＝　（符号語 bit 長）／（シンボル系列長） m に対して平均符号長の下限（エントロピー H ( m ) ） P ( x n | m ) が既知のとき， H ( m ) まで圧縮が可能 (1)

データ圧縮の手法 bzip2 （ BS 法）， gzip など（ LZ 法）計算量が少ない実用化が行われているベイズ符号理論的には優れた圧縮率計算量，必要メモリ量が多い研究背景　（3／6）

研究背景　（4／6）ベイズ符号情報源モデルのクラス M を既知とする．モデル m ∈ M （未知）に対してモデルの事前分布 P ( m ) を仮定 ↓ 事前分布の下でベイズ最適な符号長となる符号シンボル系列 x n に対して，符号化確率 P C ( x n ) を計算 (2)

研究背景　（5／6）ベイズ符号特徴仮定した事前分布の下では，ベイズ最適漸近的（シンボル系列長を無限とした場合）に，平均符号長がエントロピーに収束必要メモリ量，計算量を削減した効率的な構成アルゴリズム [ 松嶋 95] 　->　必要メモリ量削減アルゴリズム [ 中野 05]

研究背景　（6／6）ベイズ符号実データに[中野 05]を適用する際の問題点必要メモリ量が依然として莫大　　->　使用メモリ量に何らかの制約が必要無情報事前分布以外の事前分布設定　　->　従来研究が行われていない

研究目的ベイズ符号の実用化に向けて事前分布の設定学習対象データを利用使用メモリ量に制約圧縮率，必要メモリ量の評価従来使用してきた無情報事前分布との比較すでに実用化されているデータ圧縮法 bzip2 との比較圧縮率は向上，必要メモリ量は依然莫大主結果：

Context Tree（CT）情報源　（1／4）パラメトリックな情報源モデルクラス m ：CT情報源モデル θ ( m ) ： m の下でのパラメータシンボル x t の生起確率： P ( x t | x t － 1 , θ ( m ), m ) 過去のシンボル系列 x t － 1 から x t の生起確率が決まる情報源モデルが一意に定まる

CT情報源　（2／4） s i ：直前シンボル系列が??? i であることを表す状態モデル m ：複数の状態 s で定義例）　 m 1 ＝ { s 00 ， s 10 ， s 1 } 　　直前のシンボル系列 x t － 1 により時点 t の状態 s ( x t － 1 ) が一意に定まる状態 s が持つパラメータ θ ( s ) により，シンボルの生起確率 P ( x t | x t － 1 ,θ( s ), s ) が定まる P ( x t | x t － 1 ,θ( m ), m ) ＝ P ( x t | x t － 1 ,θ( s ( x t － 1 )), s ( x t － 1 )) (3)

CT情報源　（3／4） CT 情報源は木モデルで表現可能枝：情報シンボル x ノード：状態 s 例1　状態 { s 00 ， s 10 ， s 1 } を持つCT情報源 m 1 　 x t － 1 を表す x t － 2 を表す 0 0 s 1 1 1 s 10 s 00

CT情報源　（4／4） x t － 1 ＝??? 1 1 0 の場合シンボル x t － 1 ＝ 0 シンボル x t － 2 ＝ 1 例1　状態 { s 00 ， s 10 ， s 1 } を持つCT情報源 m 1 　 x t － 1 を表す x t － 2 を表す 0 0 s 1 1 1 s 10 s 00 状態は s 10

Context Tree　（1／2） Context Tree とは CT 情報源モデルが未知である場合にシンボル系列から状態の候補を求めるための木モデル例）次数の最大値が 2 の CT 情報源モデルクラス　　（次数：系列 x t － 1 を何文字遡れば状態が定まるか） m 1 　　　　 m 2 　　　　　　　 m 3 　　　　　　　 m 4 　　　　　　　　　　　　　　 m 5 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1

Context Tree　（2／2） Context Treeとは CT情報源モデルが未知である場合にシンボル系列から状態の候補を求めるための木モデル例）次数の最大値が 2 の Context Tree 0 1 0 1 0 1 x t － 1 ＝??? 1 0 1 の場合，　時点 t で考えられる状態 S t は　　 S t ＝ { s λ ， s 1 ， s 01 } s λ s 01 s 1

CT情報源に対するベイズ符号（1/7）問題設定既知：情報源モデルが CT 情報源未知：情報源モデル m ，パラメータ θ( m ) 仮定：モデルの事前分布 P ( m ) 　　　　パラメータの事前分布 P (θ( m )) 目的：符号化確率 P C ( x n ) の計算ベイズ符号器算術符号器符号語符号化確率 P C ( x n ) シンボル系列 x n 事前分布 P ( m ) ， P(θ( m )| m ) 事後分布 P ( m | x n ) ， P (θ( m )| m , x n )

CT情報源に対するベイズ符号（2/7）逐次型ベイズ符号時点 t ごとにシンボル x t の符号化確率 P C ( x t | x t － 1 ) の計算同時に事後分布 P ( m | x t ) ， P (θ( m ), m | x t ) の計算　->　次の時点 ( t ＋ 1) の事前分布として利用ベイズ符号器算術符号器符号語符号化確率 P C ( x t | x t － 1 ) シンボル x t 事前分布事後分布次の時点 (t ＋ 1) の事前分布

CT情報源に対するベイズ符号（3/7）符号化確率を次式で計算問題点：　最大次数が増加 ↓ 　モデル数が莫大 ↓ 　莫大な計算量 (4) ??? ??? 677 4 26 3 5 2 モデル数最大次数

CT情報源に対するベイズ符号 Context Tree を利用して符号化確率を計算 [ 松嶋 95] 例）次数の最大値が 2 の　　　 Context Tree パラメータの事前分布で重み付け状態の事前分布で重み付け 0 1 0 1 0 1 （ 4/7 ） (5)

CT情報源に対するベイズ符号 Context Tree を利用して符号化確率を計算 [ 松嶋 95] 問題点：時点 t ごとに，全状態 s の P ( s | x t － 1 ) を計算が必要（ 5/7 ） (5) 計算量削減 ??? 31 15 7 状態数 ??? ??? 677 4 26 3 5 2 モデル数最大次数

CT情報源に対するベイズ符号 P ( s ) の代わりに下式の q ( s ) を利用　 [ 松嶋 95] q ( s ) の事後確率の計算でも， x t － 1 に対応する状態のみで OK ↓ 最大次数 D に対して O ( D 2 ) の計算量 ※ 　 D を設定しない場合でも O ( n 2 ) の計算量 0 1 0 1 0 1 例） x t － 1 ＝??? 10 なら（ 6/7 ） s (10) s (0) s (λ)

CT情報源に対するベイズ符号（7/7）必要メモリ量を削減したアルゴリズム [ 中野 05] [ 松嶋 95] で最大次数 D を設定しない場合必要メモリ量： O ( n 2 ) ↓ Context Tree の表現方法の改良　->　必要メモリ量が O ( n ) となる　　　アルゴリズムの提案

実データに対するベイズ符号問題点必要メモリ量 256 進の Context Tree を利用　->　ノードを表現するのに必要なメモリ量が莫大事前分布の設定従来は無情報事前分布を利用　->　実データは無情報事前分布に適合しない　->　圧縮率の低下（ bzip2 と同程度） ※ 　実データに適合するような事前分布の研究はされていない

本研究のアプローチ（1／5）モデルの事前分布必要メモリ量　∝　 Context Tree のノード数逐次型ベイズ符号化確率 P C ( x t | x t － 1 ) 計算時， P ( s ) の値が小さい状態 s small に関する和計算 P ( s small ) ＝ 0 とみなしても符号化確率に微小の差 P ( s small ) ＝ 0 とする（状態がないとみなす） ??? (6)

本研究のアプローチ（2／5）パラメータの事前分布状態の下でシンボルが何回生起したかという情報（頻度カウンタ）として保持．状態における頻度カウンタの合計値　???　事前分布の圧縮における影響の強さ ↓ 頻度カウンタの合計値を調整することによる圧縮率の変動は？

パラメータの事前分布の調整法パラメータの分布：頻度カウンタで表現学習データから単純に出現頻度を計算 ↓ 頻度カウンタの値が大きすぎる ↓ 各状態の頻度カウンタの比率を変えずに，合計値が定数 c となるように正規化本研究のアプローチ（5／5）

シミュレーションシミュレーション目的シミュレーション1 学習済み事前分布を用いた逐次形ベイズ符号の圧縮性能評価シミュレーション2 パラメータの事前分布の調整を行った逐次型ベイズ符号の圧縮性能評価シミュレーション3 モデルの事前分布の調整を行った逐次型ベイズ符号の圧縮性能，必要メモリ量評価

シミュレーションシミュレーション条件テキストのクラスと，使用ファイルの総サイズ：学習データ圧縮対象データ（ 100 ファイル）（ 20 ファイル）英文テキスト約40MB 約6MB 英文HTML 約35MB 約5.5MB 日本語テキスト約5MB 約1.2MB 日本語HTML 約3.5MB 約0.6MB

シミュレーション1 目的学習済み事前分布を用いた逐次型ベイズ符号無情報事前分布を用いた逐次型ベイズ符号 bzip2 を用いて圧縮を行った場合の圧縮性能評価

シミュレーション1 シミュレーション結果

シミュレーション2 目的パラメータの事前分布の調整を行った際の圧縮性能評価頻度カウンタの合計値 c を以下のように設定 c＝{1,10，100,調整無し}

シミュレーション2 シミュレーション結果

シミュレーション3 目的必要メモリ量削減に向けて，ノード削減を行う条件（α，β）を変更 ↓ 圧縮率と必要メモリ量のトレードオフの関係

シミュレーション3 シミュレーション結果　－圧縮率－

シミュレーション3 シミュレーション結果　－必要メモリ量－

考察どのように事後分布の調整を行うのがよいかモデルの事前分布：　αの値の変更によるメモリ量の削減パラメータの事前分布：　c＝10～100の間で設定（さらに細かく調べる必要）計算量に関して [中野 05]と比較して同等の計算量（ O ( n 2 ) ） ↓ 実用的なオーダー

まとめと今後の課題まとめ学習対象データを利用した事前分布の設定，調整　->　圧縮率の向上事前分布 P ( s ) の小さいノードを削減した下での圧縮性能評価今後の課題複数のモデルクラスを考慮した事前分布の設定　->　性能評価必要メモリ量の更なる削減（圧縮率とのトレードオフを考慮する必要）

狠狠撸

ma99992006id365

Recommended

More Related Content

What's hot (20)

Similar to ma99992006id365 (20)

More from matsushimalab (20)

ma99992006id365