狠狠撸

统语的曖昧性?普遍性判定问题の决定可能性

統語的曖昧性とは種々の文法において「文法が曖
昧かどうか」を表す性質であり，自然言語の形式
化やプログラミング言語の構文設計においても重
要となる性質です．
本資料では
①形式言語理論の基礎から始め，
②文脈自由文法の統語的曖昧性の定義といくつ?
　かの基本的な性質を説明し，
③曖昧/無曖昧な文脈自由文法における?
　普遍性判定問題(任意の文字列を導出するか?
　どうかの判定)が決定不能/決定可能であること?
を説明しています．
本資料は数学基礎論若手の会2017での話者の発表内容に、さらに
③の証明についての簡単解説を付加したものです．

スライド作成： Ryoma Sin’ya
(@sinya8282)
表紙絵： Suwa Takashi

形式言語理論とは
文脈自由言語
統語的曖昧性
言語の母関数と代数関数
普遍性判定問題の決定可能性
スライド内容

“言語”を形式的に調べる
形式言語理論における“言語”とは単に?
文字列の集合．
よりフォーマルには，有限集合Aで生成され
る文字列全体(自由モノイド)の部分集合
を言語と呼ぶ．

Example:
L = { w ∈ A | w は “回文” }
= {ε, a, b, c, aa, bb, cc, aaa, aba, … }
このような L を(A上の)言語と呼ぶ！
A = {a, b, c}
*

Example:
L = 正しい日本語の文章の集合
このような L は言語と呼ばない！?
なぜか？ → 定義がガバガバで形式的でない
A = 全ての漢字?ひらがな?カタカナ

自然言語の形式化
我々が日常話す言語はどのように形式的
に定義できるのだろうか？
言語解釈の計算量は？?
論理的?代数的な性質は？
形式言語理論の目標(の一部)

人工言語の形式化(応用的)
プログラミング言語などへの応用

文字列の数理を極めたい(基礎的)
種々の言語クラス(言語の族)の代数的??
論理的?計算論的側面を調べ尽くす．
言語に深い数学的構造はあるか？

文字列の数理を極めたい(基礎的)
種々の言語クラス(言語の族)の代数的??
論理的?計算論的側面を調べ尽くす．
言語に深い数学的構造はあるか？
いろいろありますが，そのうちの１つに
“曖昧性”(後述)が挙げられると思います．

regular
visibly pushdown
deterministic context-free
unambiguous context-free
context-free
indexed
context-sensitive
recursively enumerable
higher-order
?
order-3
PTIME
star-free zero-one
?nite-co?nite
piecewise testable
NPTIME
?
order-4
?
形式言語理論での研究対象?
(言語クラス)のごく一部を列挙．?
上に行くほど広い言語クラス．?
白線は strict な包含関係．

regular
visibly pushdown
context-free
indexed
context-sensitive
higher-order
?
order-3
PTIME
star-free zero-one
?nite-co?nite
piecewise testable
NPTIME
?
order-4
?
今日の話題の主要な?
言語クラスは regular
(正則) と context-free ?
(文脈自由) !!!
形式言語理論での研究対象?
(言語クラス)のごく一部を列挙．?
上に行くほど広い言語クラス．?
白線は strict な包含関係．

スライド内容
形式言語理論とは
文脈自由言語
統語的曖昧性
言語の母関数と代数関数
普遍性判定問題の決定可能性

文脈自由言語?
(context-free language)

一言で言うと「マッチング付き単項二階述
語論理式で定義できる言語」
文脈自由言語?

文脈自由言語?
一言で言うと「スタック付き有限状態オート
マトンで認識できる言語」

文脈自由言語?
一言で言うと「不動点付き正則表現?
(μ-regular expression)で定義できる言語」

文脈自由言語?
一言で言うと「正則木言語の葉の集合」

文脈自由言語?
一言で言うと「文脈自由文法で定義できる
言語」
一言で言うと「正則木言語の葉の集合」

文脈自由言語?
アルファベットA上の文脈自由文法とは3つ組?
G = (V, R, S) であって:
Vは有限集合(元を“変数”と呼ぶ)
R ? V×(V∪A) を書き換え規則と呼ぶ
s∈ V を初期変数と呼ぶ
*+
Example 1:
A = {a,b}
G = ({s}, {(s,ε),(s, asa),(s, bsb)}, s)
s → ε s → asa → absba → abεba = abba
つまり [G] = {a,b}上の偶数長の回文全体

文脈自由文法における決定問題
普遍性判定(universality)
入力：文法G
出力：[G] = A が成り立つか？?
(全ての語を含むかどうか)
語の所属判定(membership)
入力：文法Gと語w
出力： w ∈ [G] か？
等価性判定(equivalence)
入力：文法Gと文法H
出力： [G] = [H] か？
*

構文木
文法Gと語 w ∈ [G] について， wの(G-)構文木
とは w を生成するGの書き換え規則の有限適
用列を木で表現したもの．

構文木
葉を左から並べると
(書き換えた結果の)?
語になっている
A = {<,>}
G = ({s}, {(s, <>), (s, ss), (s, <s>)}, s)
s → ss → <s>s → <<>>s → <<>><>s → <>
s
< >
s
s s
< s >
< >
< >
Example:

構文木
「構文木を作ること」を構文解析と呼ぶ．
構文解析を行うアルゴリズムが存在する?
→ 語の所属問題が解ける．?
(構文解析をせず語の所属問題を解く?
　　方法もある：オートマトンなど)

regular
visibly pushdown
context-free
indexed
context-sensitive
higher-order
?
order-3
PTIME
star-free zero-one
?nite-co?nite
piecewise testable
NPTIME
?
order-4
?

regular
visibly pushdown
context-free
indexed
context-sensitive
higher-order
?
order-3
PTIME
star-free zero-one
?nite-co?nite
piecewise testable
NPTIME
?
(線より下は)?
文法の等価性が決定可能
order-4
?

regular
visibly pushdown
context-free
indexed
context-sensitive
higher-order
?
order-3
PTIME
star-free zero-one
?nite-co?nite
piecewise testable
NPTIME
?
(線より下は)?
普遍性が決定可能
order-4
?

regular
visibly pushdown
context-free
indexed
context-sensitive
higher-order
?
order-3
PTIME
star-free zero-one
?nite-co?nite
piecewise testable
NPTIME
?
(線より下は)?
空性が決定可能order-4
?

regular
visibly pushdown
context-free
indexed
context-sensitive
higher-order
?
order-3
PTIME
star-free zero-one
?nite-co?nite
piecewise testable
NPTIME
?
(線より下は)?
空性が決定可能
語の所属が決定可能
order-4
?

- -
( ) [ ]
—
( )
— ?
— ?

「曖昧」という言葉の意味自体は一般用語にお
いては曖昧ではあるが，共通認識として「はっきり
としないこと」?
「なんかモヤっとしてること」というイメージは?
(Google画像検索からも)なんとなくわかる．

一方，形式言語理論においては?
「曖昧(統語的に曖昧)」という用語ははっきりと
した定義を持つ専門用語である．

一方，形式言語理論においては?
「曖昧(統語的に曖昧)」という用語ははっきりと
した定義を持つ専門用語である．
形式言語における曖昧性は?
「構文木の重複」を表す．

構文木
構文木が複数ある場合も文法によってはありえ
る！！

構文木
る！！
A = {<,>}
G = ({s}, {(s, <>), (s, ss), (s, <s>)}, s)
s
ss
< > s
< >
s
< >
s
s
< >
s
s
< >
s
< >
どちらも <><><> の構文木！！

文脈自由文法G = (V, R, s)について，全て
の語wでwのG-構文木がたかだか1つしか無い
時，Gを無曖昧な文法と呼ぶ．
形式言語理論における「曖昧性」

文脈自由文法G = (V, R, s)について，全て
の語wでwのG-構文木がたかだか1つしか無い
時，Gを無曖昧な文法と呼ぶ．
形式言語理論における「曖昧性」
無曖昧な文法で定義できる文脈自由言語
を無曖昧文脈自由言語と呼ぶ．
無曖昧でない文脈自由言語は?
「本質的に曖昧」などと言う．

自然言語にも曖昧性
Time flies like an arrow.

(絵 by Suwaさん)

s
NP VP
V PP
(絵 by Suwaさん)

s
NP VP
V PP
s
NP VP
V NP
(絵 by Suwaさん)

s
NP VP
V PP
VP
V NP PP
s
NP VP
V NP
(絵 by Suwaさん)

自然言語にも曖昧性(cont.)
純粋に言語学的な立場から言うと，?
曖昧さには3つの主な型がある．すなわち，
音声の面におけるもの，?
文法の面におけるもの，?
意味の面におけるものの3つである．
Stephen Ullmann,“Semantics: An Introduction to
the Science of Meaning” より引用

自然言語にも曖昧性(cont.)
純粋に言語学的な立場から言うと，?
曖昧さには3つの主な型がある．すなわち，
音声の面におけるもの，?
文法の面におけるもの，?
意味の面におけるものの3つである．
Stephen Ullmann,“Semantics: An Introduction to
the Science of Meaning” より引用
本資料における「統語的」曖昧性のこと

プログラミング言語にも曖昧性
プログラミング言語の構文などは無曖昧でないと困
る．
if-then-else の「ぶらさがり else 問題」

実際には，各プログラミング言語ごとに，文法の?
曖昧性が無いように文法や仕様が決められている．
プログラミング言語にも曖昧性
仕組み的に曖昧性が存在しない文法記述体系も
存在する．
Parsing Expression Grammars (PEGs) など

構文木
る！！
A = {<,>}
G = ({s}, {(s,ε), (s, ss), (s, <s>)}, s)
s
ss
< > s
< >
s
< >
s
s
< >
s
s
< >
s
< >
どちらも <><><> の構文木！！

A = {<,>}
G = ({s}, {(s,ε), (s, ss), (s, <s>)}, s)

この文法の下線部を次のように変更してみる
A = {<,>}
G = ({s}, {(s,ε), (s, ss), (s, <s>)}, s)

A = {<,>}
G = ({s}, {(s,ε), (s, ss), (s, <s>)}, s)
A = {<,>}
G = ({s}, {(s,ε), (s, <s>s)}, s)

s
s< >
ε
s
s< >
ε
s
s< >
ε
s
ε
A = {<,>}
G = ({s}, {(s,ε), (s, ss), (s, <s>)}, s)
A = {<,>}
G = ({s}, {(s,ε), (s, <s>s)}, s)

s
s< >
ε
s
s< >
ε
s
s< >
ε
s
ε
A = {<,>}
G = ({s}, {(s,ε), (s, ss), (s, <s>)}, s)
A = {<,>}
G = ({s}, {(s,ε), (s, <s>s)}, s)
すると <><><> の構文木がただ一つに！！

無曖昧化(Disambiguation)
言語が同じでも，文法を変更すると曖昧性がな
くなる(構文木が常に一つに定まる)場合がある
無曖昧な文法に常に変更できるわけではない．
つまり，本質的に曖昧な言語は存在する！
s
s< >
ε
s
s< >
ε
s
s< >
ε
s
ε
A = {<,>}
G = ({s}, {(s,ε), (s, <s>s)}, s)

正則言語(regular language)は非常に解析しやす
い言語クラス．
正則言語の理論は綺麗に木言語(木の集合)に?
拡張できる → 正則木言語の理論
実は，「言語Lがある木正則言語Rの葉の集合」と?
　　　「Lは文脈自由言語」は等価な性質．
木正則言語と文脈自由言語

正則言語(regular language)は非常に解析しやす
い言語クラス．
正則言語の理論は綺麗に木言語(木の集合)に?
拡張できる → 正則木言語の理論
実は，「言語Lがある木正則言語Rの葉の集合」と?
　　　「Lは文脈自由言語」は等価な性質．
木正則言語と文脈自由言語
さらに，言語Lが無曖昧な場合，Lの文字列と?
ある木正則言語Rの木が一対一に対応する．
そのため，無曖昧文脈自由言語の理論には?
部分的に木正則言語の道具を使うことができ
る！

A上の言語Lに対して，次の形の無限級数
F(z)をLの母関数と呼ぶ：?
?
?
?
?
?
?
ここで，#(L∩A )は「L中の長さnの文字列の
総数」を表す．
言語の母関数
F(z) =
1X
n=0
#(L An
) · zn
n

?
言語の母関数
F(z) =
1X
n=0
#(L An
) · zn
Example:
L = {ε, <>, <<>>, <><>, <<<>>>, <<><>>,?
<<>><>, <><<>>,<><><>, … }

?
言語の母関数
F(z) =
1X
n=0
#(L An
) · zn
Example:
L = {ε, <>, <<>>, <><>, <<<>>>, <<><>>,?
<<>><>, <><<>>,<><><>, … }
F(z) = 1 + z2
+ 2z4
+ 5z6
+ 14z8
+ · · ·

?
言語の母関数
F(z) =
1X
n=0
#(L An
) · zn
Example:
L = {ε, <>, <<>>, <><>, <<<>>>, <<><>>,?
<<>><>, <><<>>,<><><>, … }
F(z) = 1 + z2
+ 2z4
+ 5z6
+ 14z8
+ · · ·
この母関数(無限級数)を?
有限的に記述できないか？

言語と母関数の定理
定理：
正則言語の母関数は有理関数
F(z) is rational i?
9P(z), Q(z):polynomial s.t. F(z) = P(z)/Q(z)

定理：
定理(Chomsky-Schutzenberger)：
無曖昧文脈自由言語の母関数は
代数関数
F(z) is rational i?

S(z) = 1 + zS(z)zS(z)
S ! " | hSiS

= 1 + z2
S(z)2
S(z) = 1 + zS(z)zS(z)
S ! " | hSiS

= 1 + z2
S(z)2
S(z) = 1 + zS(z)zS(z)
z2
S(z)2
S(z) + 1 = 0
S ! " | hSiS

z2
S(z)2
S(z) + 1 = 0
S(z) =
1
p
1 4z2
2z2

S(z) =
1
p
1 4z2
2z2
= 1 + z2
+ 2z4
+ 5z6
+ 14z8
· · ·
(Taylor expansion)

S(z) =
1
p
1 4z2
2z2
= 1 + z2
+ 2z4
+ 5z6
+ 14z8
· · ·
(Taylor expansion)
Theorem [Chomsky-Schutzenberger 1959]

S(z) =
1
p
1 4z2
2z2
= 1 + z2
+ 2z4
+ 5z6
+ 14z8
· · ·
(Taylor expansion)
Theorem [Chomsky-Schutzenberger 1959]
?

定理：
定理(Chomsky-Schutzenberger, 1959)：
代数関数
F(z) is rational i?

定理：
定理(Chomsky-Schutzenberger, 1959)：
代数関数
F(z) is rational i?
定理(Kemp, 1980):
母関数が超越関数となる文脈自由言語
は存在する．

Goldstine言語
L(z)
L ?
3.1.
?
3.7 ([12] ). Goldstine
A = {a, b} G
G = {an1
ban2
b · · · anp
b | p ≥ 1, ni ?= i for some i}.
( )Goldstine G
3.1
Goldstine G A?
1. a (a + b)?
a,
2. b
G′
= {ε, ab, abaab, abaabaaab, · · · }
G = A?
(a + b)?
a G′
G G
G(z) =
1
1 ? 2z
?
z
1 ? 2z
? G′
(z)
=
1 ? z
1 ? 2z
? zn(n+1)/2?1
(14)
3.4 L
L
f, g
f(n) ～ g(n) n → ∞ f(n)/g(n) 1
3.1
3.6 (Puiseux-Transfert). S(z)
S(z) zn
[zn
]S(z)
[zn
]S(z)
[zn
]S(z) ～
αn
ns
Γ(s + 1)
m
i=0
Ciωn
i
?4 [13] Appendix B.1 “Alge-
braic elimination” .
Goldstine G A?
1. a (a + b)?
a,
2. b
G′
= {ε, ab, abaab, abaabaaab, · · · }
G = A?
(a + b)?
a G′
G G
G(z) =
1
1 ? 2z
?
z
1 ? 2z
? G′
(z)
=
1 ? z
1 ? 2z
?
n≥1
zn(n+1)/2?1
(14)
(14)
G(z)′
= n≥1
zn(n+1)/2?1
|z| = 1
(natural boundary) |z| = 1
(G′
(z) )
G
?

1
— —
trices with coe?cients in suitable algebras.
— Jacques Sakarovitch
1. (3 )
2. (4 )
3. (5 )
Webにてサーベイ論文が公開中
https://www.jstage.jst.go.jp/article/jssst/34/3/34_3_3/_article/-char/ja/

文脈自由文法 G と H について：
[G] = [H] の判定一般に決定不能
[G] = A の判定は一般に決定不能
[G] が正則かどうかの判定は決定不能
[G]が無曖昧文脈自由言語かどうかの?
判定は決定不能
文脈自由文法にまつわる決定不能問題
*

文脈自由文法 G と H について：
[G] = [H] の判定一般に決定不能
[G] = A の判定は一般に決定不能
[G] が正則かどうかの判定は決定不能
[G]が無曖昧文脈自由言語かどうかの?
判定は決定不能
文脈自由文法にまつわる決定不能問題
*
地獄

regular
visibly pushdown
context-free
indexed
context-sensitive
higher-order
?
order-3
PTIME
star-free zero-one
?nite-co?nite
piecewise testable
NPTIME
?
(線より下は)?
言語の等価性が決定可能
空性が決定可能
語の所属が決定可能
order-4
?

無曖昧という制約を文法につけると，言語の
普遍性判定(全ての文字列を導出するか？)は?
決定可能!!![Semenov 1973]．?
「無曖昧」の良いところ

しかもその証明は極めて非形式言語理論的
である．証明には「複素解析の一致の定理」と
「Tarskiの実閉体のQE(量化子消去)」が用い
られる！

Theorem [Semenov 1973]
G = (V, R, S) ?
A?

G = (V, R, S) ?
A?
L(G) ? A?
G
L(G) A*
? n L(G) n ?
A* n
? G A*

G = (V, R, S) ?
A?
G G A*
φ ?
( !)
φ (Tarski ) ?
φ

証明の詳細は書籍“Automata-Theoretic
Aspects of Formal Power Series”の4.5章を
参照してください．

狠狠撸

统语的曖昧性?普遍性判定问题の决定可能性

Recommended

More Related Content

What's hot (20)

Similar to 统语的曖昧性?普遍性判定问题の决定可能性 (9)

More from Ryoma Sin'ya (12)

Recently uploaded (6)

统语的曖昧性?普遍性判定问题の决定可能性