狠狠撸

狠狠撸Share a Scribd company logo
奥颈办颈辫别诲颈补汎用オントロジーの
        簡易説明書


      長岡技術科学大学 山本研究室
                 柴木優美
            作成日2011/03/17
                       1
目次

? 構築したオントロジー(特徴、全体像、精度、規模)
? 構築手法の概要
? 構築手法詳細




                             2
目次

? 構築したオントロジー(特徴、全体像、精度、規模)
? 構築手法の概要
? 構築手法詳細




                             3
構築したオントロジー(特徴)
1. is-a関係からなるオントロジー。
2. カテゴリと、カテゴリに分類される記事(名)で構成さ
   れる。
3. カテゴリと記事は1つに統一された階層構造をもつ。
4. 階層はネットワーク構造である。循環はしない。
5. 1つのカテゴリは複数の親カテゴリと複数の子カテゴ
   リ、複数の記事をもつ。(持たないこともある)
6. 1つの記事は、複数のカテゴリをもつ可能性がある。
7. 最上位カテゴリは「人」「組織」「施設」など、9種類の
   意味属性が設定されている。
                            4
构筑したオントロジー(全体像)
                                      最上位カテゴリ


        人     組織       施設      地名       地形         具体物          創作物          動植物     イベント


   is-a関係                              信号機
                                                    コーヒー豆
                                                    新幹線回数券

                                              食品
                                                                                     社会問題

スポーツの関係者                                           ファーストフード
                                        菓子
                                                                                      事故
                                                     チキン?ナゲット
 スポーツ選手                                              ビッグ?マック                災害
                             アジアの菓子          ケーキ
            スポーツ指導者                                                                   ガス爆発
                                                   アップルパイ       自然災害
  水泳選手                                洋菓子          タルト?タタン                   船の衝突事故
            コーチ
            インストラクター                                                    飢饉
                            日本の菓子     中国の菓子                                      イージス艦衝突事故
ゴルファー                                                                            第十雄洋丸事件
                                               杏仁豆腐
                                               月餅            気象災害     生物災害
 女子ゴルファー               和菓子      駄菓子
                                                                                 ねずみ騒動
                                       うまい棒              雷          サイクロン        バイオハザード
  日本の女子ゴルファー                 餅菓子       酢だこさん太郎
                       煎餅                                           サイクロン?カタリーナ
            宮里藍                                火山雷                  サイクロン?オーソン
                                団子             清涼殿落雷事件

                               カテゴリ            記事の見出し語
                                                                                             5
Wikipediaカテゴリ階層
構築したオントロジー(精度)
カテゴリ間、カテゴリ-記事間のis-a関係判定精度

 2008年7月24日の日本語Wikipediaによる。評価データ数 :各2500
   件
                カテゴリ間          カテゴリ-記事間
   判定手法        適合率 再現率         適合率 再現率

 提案手法            95.7   81.9    96.6   91.9

- 3手法を用いてis-a関係でないリンクを削除する手法
 で高再現率を実現
      パターンマッチでは抽出できないis-a関係を抽出
 例: 携帯電話アプリ←EZ助手席ナビ、 ベーシスト←ボブ?デイズリー
                                              6
構築したオントロジー(規模)

2008年7月24日時点のWikipediaを使った場合
記事数                            42万
カテゴリ数                          3.4万
カテゴリ間のis-a関係数                    5万
カテゴリ-記事間のis-a関係数               83万
末端のカテゴリの平均深さ                     6.9


                                       7
目次

? 構築したオントロジー(特徴、全体像、精度、規模)
? 構築手法の概要
? 構築手法詳細




                             8
構築手法の概要(1/2)
  1.   Wikipediaのis-a関係のリンクを判定し、いくつかの
       部分的なオントロジーを抽出
Wikipedia                                    is-a関係判定後のWikipedia
Wikipediaのカテゴリ記事間のリンクの意味関                    Is-a関係のリンクを判定し、is-a関係
係は定義されていない                                   で繋がるオントロジー階層を複数作成

   主要カテゴリ          技術     社会    自然                 カテゴリ
                                                          天体
                                                          is-a
                               天文学
                   not-is-a                                  恒星

               カテゴリ 天体               天文学者
                                                    変光星           連星
                        is-a                       is-a
                           恒星        惑星科学者    記事
                                               ? 爆発変光星
                                                                  天文学者
                   変光星           連星                               is-a
記事          is-a
                                                                  惑星科学者
  ? 爆発変光星                      not-is-a
  ?アメリカ変光星観測者協会                                                          9
構築手法の概要(2/2)
2. 部分的なオントロジーを新たに設定した最上位カテゴリ
   に接続し、Wikipediaのカテゴリを階層を再構成する

                         最上位カテゴリ

  最上位カテゴリ
         人   組織 施設    地名   地形   具体物 創作物 動植物 イベント

   天文学者                    天体
  is-a
  惑星科学者                        恒星

               ? 爆発変光星   変光星        連星

             Wikipediaの部分的なオントロジー

                                                   10
目次

? 構築したオントロジー(特徴、全体像、精度、規模)
? 構築手法の概要
? 構築手法詳細




                             11
手順
1. is-a関係のリンク判定
   -3種類の手法でWikipediaのカテゴリ間、カテゴリ-記事
   間のリンクのis-a関係でないリンクを高い再現率で削除
   し残ったリンクをis-a関係と判定。

2. 部分的なオントロジーの構築
   -部分的な複数のオントロジーの階層を構築する

3. 階層の再構成
   -部分的なオントロジーを新たに設定した最上位カテゴ
   リに接続し階層を再構成
1.is-a関係のリンク判定(1/4)
手法1. 意味属性分類によるis-a関係でないリンクの判定
 カテゴリと記事をSVMによる分類器で9種類の意味属性に分類し、
 以下の2つの規則に当てはまるリンクをis-a関係でないリンクとする
設定した9種類の意味属性
 人 組織 施設 地名          地形    具体物   創作物   動植物   イベント

  単語対が、9種類の意味属性に分類されない単語を含む
  技術    道具         社会      経済
  その他              その他     その他
  9種類の意味属性に分類されないということは、意味を明確に定義できていない
  状態である。意味が明確でない単語を含むリンクはis-a関係でないことが多い。
  そのためこのリンクをis-a関係でないリンクと判定する。
  単語対が同じ意味属性に分類されていない
  集英社    少年ジャンプ           書物     図書館
   組織        創作物          創作物    施設
  単語対の意味属性が異なるということは、意味的に類似していないということである。
                                       13
  そのためこのリンクをis-a関係でないリンクと判定する。
1.is-a関係のリンク判定(2/4)
手法2. 固有名詞抽出によるis-a関係でないリンクの判定
    親名が固有名詞の場合is-a関係とならない

    少年ジャンプ           ONE PIECE        新潟県         長岡市
      固有名詞                            固有名詞
  固有名詞は基本的には単語の最小単位なので、それより下位に単語をもつことが
  少ない。そのため、親名が固有名詞であるリンクをis-a関係でないリンクとする


  形態素解析ツールMeCabを用いる手法
-○県や○市、辞書に登録されている固有名詞を表示
 例: 長岡市、遠藤周作
  英語Wikipediaを用いる手法
-各形態素の頭文字が大文字なら固有名詞
 例:The Beatles
-記事の文中で、単語の頭文字が大文字なら固有名詞
 例: Fifteen prime ministers in Japan have studied at University of Tokyo.
                                                                     14
1.is-a関係のリンク判定(3/4)
手法3. 文字列照合によるis-a関係でないリンクの判定

 ○○←○○××の関係

 火星    火星の衛星     缶   缶コーヒー

 子名が、親名の後方に文字列を追加した文字列である場合、is-a関係以外の関係
 であることが多い。


        単純な文字列のパターンマッチで判定




                                     15
1.is-a関係のリンク判定(4/4)
意味が抽象的な単語を含む
 技術      道具         社会        経済
抽象的                 抽象的       抽象的
                                          1.意味属性分類問題
意味的に類似 していない
集英社      少年ジャンプ            書物       図書館
 組織           創作物          創作物       施設


親名が固有名詞
                                          2.固有名詞抽出問題
少年ジャンプ        ONE PIECE 新潟県         長岡市
 固有名詞                     固有名詞


○○←○○××の関係
                                          3.パターンマッチ
火星       火星の衛星            缶      缶コーヒー



カテゴリ間、カテゴリ-記事間のリンクに適用し、
                                                  16
どれにも当てはまらないリンクをis-a関係とする
2.部分的なオントロジーの構築
 3手法を用いて9種類の意味属性以外のカテゴリ?記事
 とis-a関係でないリンクを削除

  同じ意味属性からなる部分的なオントロジーができる
判定した意味属性
                     ルートカテゴリ
  人                    技術者   ルートカテゴリ
  組織              is-a         道具
  具体物   カテゴリ                                  ルートカテゴリ
               楽器製作者                ルートカテゴリ     材料
          is-a                     工業製品メーカー
    記事
        アマティ                楽器                  銅   岩石
                                   ヤマハ
                 ヴァイオリン
                                          ルート記事 ルートカテゴリ
               ルートカテゴリ                           銅の加工物
                                       スタインバーグ
                 演奏家
                          エレクトーン

                                                          17
3.階層の再構成
 最上位カテゴリ 意味属性)に部分的なオントロジーを接続
 最上位カテゴリ(意味属性
    カテゴリ 意味属性
  -ルートカテゴリ、ルート記事を同じ意味属性の下位に接続
                                     最上位カテゴリ
判定した意味属性
  人       最上位カテゴリ
  組織           人                組織           具体物
  具体物
                     スタインバーグ
                                        道具          銅の加工物
    演奏家        技術者
                         工業製品メーカー              材料
          カテゴリ
            楽器製作者         ヤマハ         楽器      銅     岩石
    記事
        アマティ
                               ヴァイオリン      エレクトーン


Wikipediaの階層をオントロジーの階層に再構成できた
                                                            18
Ad

Recommended

小学生の読解支援に向けた复数の换言知识を併用した语汇平易化と评価
小学生の読解支援に向けた复数の换言知识を併用した语汇平易化と评価
长冈技术科学大学 自然言语処理研究室
?
ビジネスオントロジー
ビジネスオントロジー
Noriaki Fujiwara
?
奥颈办颈辫别诲颈补からの厂辞濒谤用类义语辞书の自动生成
奥颈办颈辫别诲颈补からの厂辞濒谤用类义语辞书の自动生成
Koji Sekiguchi
?
小学生の読解支援に向けた语釈文から语汇的换言を选択する手法
小学生の読解支援に向けた语釈文から语汇的换言を选択する手法
长冈技术科学大学 自然言语処理研究室
?
Selecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for Children
长冈技术科学大学 自然言语処理研究室
?
Automatic Selection of Predicates for Common Sense Knowledge Expression
Automatic Selection of Predicates for Common Sense Knowledge Expression
长冈技术科学大学 自然言语処理研究室
?
用言等换言辞书を用いた换言结果の考察
用言等换言辞书を用いた换言结果の考察
长冈技术科学大学 自然言语処理研究室
?
用言等换言辞书の构筑
用言等换言辞书の构筑
长冈技术科学大学 自然言语処理研究室
?
质问意図による蚕础サイト质问文の自动分类
质问意図による蚕础サイト质问文の自动分类
长冈技术科学大学 自然言语処理研究室
?
役所からの公的文书に対する「やさしい日本语」への変换システムの构筑
役所からの公的文书に対する「やさしい日本语」への変换システムの构筑
长冈技术科学大学 自然言语処理研究室
?
対訳コーパスから生成したワードグラフによる部分的机械翻訳
対訳コーパスから生成したワードグラフによる部分的机械翻訳
长冈技术科学大学 自然言语処理研究室
?
用言等换言辞书を人手で作りました
用言等换言辞书を人手で作りました
长冈技术科学大学 自然言语処理研究室
?
文字列の出现频度情报を用いた分かち书き単位の自动取得
文字列の出现频度情报を用いた分かち书き単位の自动取得
长冈技术科学大学 自然言语処理研究室
?
「やさしい日本语」変换システムの试作
「やさしい日本语」変换システムの试作
长冈技术科学大学 自然言语処理研究室
?
常识表现となり得る用言の自动选定の検讨
常识表现となり得る用言の自动选定の検讨
长冈技术科学大学 自然言语処理研究室
?
动词意味类型の曖昧性解消に向けた格フレーム情报との関连调査
动词意味类型の曖昧性解消に向けた格フレーム情报との関连调査
长冈技术科学大学 自然言语処理研究室
?
二格深层格の定量的分析
二格深层格の定量的分析
长冈技术科学大学 自然言语処理研究室
?
大规模常识知识ベース构筑のための常识表现の自动获得
大规模常识知识ベース构筑のための常识表现の自动获得
长冈技术科学大学 自然言语処理研究室
?
文脉の多様性に基づく名词换言の提案
文脉の多様性に基づく名词换言の提案
长冈技术科学大学 自然言语処理研究室
?
保険関连文书を対象とした文章校正支援のための変换误り検出
保険関连文书を対象とした文章校正支援のための変换误り検出
长冈技术科学大学 自然言语処理研究室
?
Developing User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text Analyzer
长冈技术科学大学 自然言语処理研究室
?
普通名词换言辞书の构筑
普通名词换言辞书の构筑
长冈技术科学大学 自然言语処理研究室
?
大规模常识知识ベース构筑のための常识表现の自动获得
大规模常识知识ベース构筑のための常识表现の自动获得
长冈技术科学大学 自然言语処理研究室
?
普通名词换言辞书の构筑
普通名词换言辞书の构筑
长冈技术科学大学 自然言语処理研究室
?

More Related Content

More from 长冈技术科学大学 自然言语処理研究室 (20)

Selecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for Children
长冈技术科学大学 自然言语処理研究室
?
Automatic Selection of Predicates for Common Sense Knowledge Expression
Automatic Selection of Predicates for Common Sense Knowledge Expression
长冈技术科学大学 自然言语処理研究室
?
用言等换言辞书を用いた换言结果の考察
用言等换言辞书を用いた换言结果の考察
长冈技术科学大学 自然言语処理研究室
?
用言等换言辞书の构筑
用言等换言辞书の构筑
长冈技术科学大学 自然言语処理研究室
?
质问意図による蚕础サイト质问文の自动分类
质问意図による蚕础サイト质问文の自动分类
长冈技术科学大学 自然言语処理研究室
?
役所からの公的文书に対する「やさしい日本语」への変换システムの构筑
役所からの公的文书に対する「やさしい日本语」への変换システムの构筑
长冈技术科学大学 自然言语処理研究室
?
対訳コーパスから生成したワードグラフによる部分的机械翻訳
対訳コーパスから生成したワードグラフによる部分的机械翻訳
长冈技术科学大学 自然言语処理研究室
?
用言等换言辞书を人手で作りました
用言等换言辞书を人手で作りました
长冈技术科学大学 自然言语処理研究室
?
文字列の出现频度情报を用いた分かち书き単位の自动取得
文字列の出现频度情报を用いた分かち书き単位の自动取得
长冈技术科学大学 自然言语処理研究室
?
「やさしい日本语」変换システムの试作
「やさしい日本语」変换システムの试作
长冈技术科学大学 自然言语処理研究室
?
常识表现となり得る用言の自动选定の検讨
常识表现となり得る用言の自动选定の検讨
长冈技术科学大学 自然言语処理研究室
?
动词意味类型の曖昧性解消に向けた格フレーム情报との関连调査
动词意味类型の曖昧性解消に向けた格フレーム情报との関连调査
长冈技术科学大学 自然言语処理研究室
?
二格深层格の定量的分析
二格深层格の定量的分析
长冈技术科学大学 自然言语処理研究室
?
大规模常识知识ベース构筑のための常识表现の自动获得
大规模常识知识ベース构筑のための常识表现の自动获得
长冈技术科学大学 自然言语処理研究室
?
文脉の多様性に基づく名词换言の提案
文脉の多様性に基づく名词换言の提案
长冈技术科学大学 自然言语処理研究室
?
保険関连文书を対象とした文章校正支援のための変换误り検出
保険関连文书を対象とした文章校正支援のための変换误り検出
长冈技术科学大学 自然言语処理研究室
?
Developing User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text Analyzer
长冈技术科学大学 自然言语処理研究室
?
普通名词换言辞书の构筑
普通名词换言辞书の构筑
长冈技术科学大学 自然言语処理研究室
?
大规模常识知识ベース构筑のための常识表现の自动获得
大规模常识知识ベース构筑のための常识表现の自动获得
长冈技术科学大学 自然言语処理研究室
?
普通名词换言辞书の构筑
普通名词换言辞书の构筑
长冈技术科学大学 自然言语処理研究室
?

简易説明书痴别谤.2