狠狠撸

狠狠撸Share a Scribd company logo
入門セッション
●   テキストマイニング必須用語を15分程度で紹介
●   目的:初心者向け勉強会なので、基本用語から説
    明すべきだが、各発表者がいちいち説明している
    と重複しまくって非効率なので、最初にまとめる
●
    セッション後、質問タイムを設けます。お気軽に御
    質問下さい
●   ※あくまでざっくりした説明です



                              1
テキストマイニングの利用分野
1.マーケティング
  –   評判分析:売れ行き予測
  –   需要の抽出:今どんな商品が求められているか?
  –   自社製品の強み弱み:強みを伸ばし、弱点を補う
  –   インフルエンサーの特定:どこ/誰が影響力を持っているか
2.ナレッジの自動蓄積
  ●
      メール等の文書をデータベース化
  ●
      暗黙知→形式知
3.自然言語処理的領域
  –   検索、本文要約、IME、機械翻訳

                                    2
言語処理特有の技術
1.形态素解析:絶対使う。精度95%
2.構文解析:よく使う。精度80%
3.意味解析:たまに使う。研究段階。精度60%
4.文脈解析:研究段階(今回は説明省略




                          3
言語処理の技術 (1) 形态素解析
●   形態素とは:意味を持つ最小の文字列の単位
●   分かち書き:文を単語に分割すること
●   形态素解析:分かち書き+品詞付け+原形復元
●   日本語の分かち書きは難しい
    ●
        英語等と違って単語の切れ目がわからない
        –   「すもももももももものうち」→「李も桃も桃の内」○
        –   「東京都」→「東, 京都」?
●   MeCab:非常によく使われる形态素解析エンジン

                                        4
言語処理の技術 (2) 構文解析
●   構文解析:文の構造(係り受け等)を明らかにする
●   係り受け:ある文節がどの文節に作用するか
●   例文:「黒い大きな瞳の男の娘」
    ●   (肌の)黒い、大きな瞳の、男の娘?
    ●   黒い大きな瞳の、男の娘?
    ●
        黒い大きな瞳(さん)の男の娘?




                              5
言語処理の技術 (3) 意味解析
●   意味解析:評判分析等で使われる
●   「泣ける」という単語はポジティブ?ネガティブ?
     –   「映画」+泣ける?感動した!というポジティブ表現
     –   「試験」+泣ける?結果が悪かった!というネガティブ表現
     –   単語の意味は文脈によって変わる可能性がある
●   語義曖昧性解消:単語の複数の意味の中から、文
    に応じた語義を特定すること
●   単語情報単体で自然言語の全てを理解できるわけ
    ではない

                                       6
テキストの統計処理
●   単語:トークンとタイプ
      –   “nurture or nature? nurture passes nature”は何単語?
      –   6(節)と答えるのがトークン
      –   4(種類)と答えるのがタイプ
●   bag-of-words(BOW):文章の単語ベクトル表現
      –   柴犬が私を噛んだ→{柴犬,が,私,を,噛ん,だ}
      –   {柴犬,が,私,を,噛ん,だ} = {私,が,柴犬,を,噛ん,だ}
●   Nグラム:隣接するN単位の共起
      –   単語2グラム[柴犬,が][が,私][私,を][を,噛ん][噛ん,だ]
      –   文字2グラム(柴,犬)(犬,が)(が,私)(私,を)(を,噛)(噛,ん)(ん,だ)
                                                            7
頻出専門用語
●
    コーパス:言語の分析用例データ
●   素性:文法的な情報を表す特徴量(単語頻度等)
●   シソーラス:階層構造を持った類義語辞書
●   照応解析:代名詞が指しているものを明らかにする
●   省略補完:省略された主語などを補完する
●
    チャンキング:文の意味的な固まりを見つける技術
●   格フレーム:ある語の語義毎に共起する語の組
●   機械学習:人間の学習能力をコンピュータに持た
    せて、分類や判別、予測などを行う研究分野
     –   教師有り学習:与えられた正解例に沿う様、分類などを行う
                                       8
     –   教師無し学習:入力値から頻出/特殊なパターンを見出す
Ad

Recommended

さくさくテキストマイニング入门セッション
さくさくテキストマイニング入门セッション
antibayesian 俺がS式だ
?
おとなのテキストマイニング
おとなのテキストマイニング
Munenori Sugimura
?
Dynamic Entity Representations in Neural Language Models
Dynamic Entity Representations in Neural Language Models
Shun Kiyono
?
最先端NLP勉強会 Context Gates for Neural Machine Translation
最先端NLP勉強会 Context Gates for Neural Machine Translation
Masahiro Yamamoto
?
社内勉強会 2014/10/08
社内勉強会 2014/10/08
Takaki Yoneyama
?
Python nlp handson_20220225_v5
Python nlp handson_20220225_v5
博三 太田
?
自由文と自然言语、どちらがすぐれている?
自由文と自然言语、どちらがすぐれている?
Keisuke NAKAMURA
?
Jsai2021 winter ppt_ota_20211127
Jsai2021 winter ppt_ota_20211127
博三 太田
?
DeepLearning 中心に見る最近の論文事情
DeepLearning 中心に見る最近の論文事情
Yuta Yamashita
?
Logics 18th ota_20211201
Logics 18th ota_20211201
博三 太田
?
20150702文章読解支援のための日本语の语汇平易化システム
20150702文章読解支援のための日本语の语汇平易化システム
Tomoyuki Kajiwara
?
【Schoo web campus】「相手に伝わる」文章を書く技術 2限目
【Schoo web campus】「相手に伝わる」文章を書く技術 2限目
schoowebcampus
?
たのっち流コラムの书き方
たのっち流コラムの书き方
Daiki Tanoguchi
?
正规表现入门
正规表现入门
thinca
?
プログラミング言语の习得顺番について
プログラミング言语の习得顺番について
ichigats
?
09 manual writing20130611sample
09 manual writing20130611sample
和也 高山
?
Sigconf 2019 slide_ota_20191123
Sigconf 2019 slide_ota_20191123
博三 太田
?
joint_seminar
joint_seminar
Tomoyuki Kajiwara
?
日本语の语汇平易化システムおよび评価セットの构筑
日本语の语汇平易化システムおよび评価セットの构筑
Tomoyuki Kajiwara
?
ロジカルコミュニケーション
ロジカルコミュニケーション
ashizawa1 Ashizawa
?
Japan.r 2018 slide ota_20181201
Japan.r 2018 slide ota_20181201
博三 太田
?
Ultra Lightning Talk × 3
Ultra Lightning Talk × 3
Nagi Teramo
?
20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meeting
akikom0819
?
第1回 スライト?シェア用
第1回 スライト?シェア用
AYUMI12
?
A Neural Reordering Model for Phrase-based Translation
A Neural Reordering Model for Phrase-based Translation
Wataru Endo
?
ガチャとは心の所作
ガチャとは心の所作
antibayesian 俺がS式だ
?

More Related Content

What's hot (20)

自由文と自然言语、どちらがすぐれている?
自由文と自然言语、どちらがすぐれている?
Keisuke NAKAMURA
?
Jsai2021 winter ppt_ota_20211127
Jsai2021 winter ppt_ota_20211127
博三 太田
?
DeepLearning 中心に見る最近の論文事情
DeepLearning 中心に見る最近の論文事情
Yuta Yamashita
?
Logics 18th ota_20211201
Logics 18th ota_20211201
博三 太田
?
20150702文章読解支援のための日本语の语汇平易化システム
20150702文章読解支援のための日本语の语汇平易化システム
Tomoyuki Kajiwara
?
【Schoo web campus】「相手に伝わる」文章を書く技術 2限目
【Schoo web campus】「相手に伝わる」文章を書く技術 2限目
schoowebcampus
?
たのっち流コラムの书き方
たのっち流コラムの书き方
Daiki Tanoguchi
?
正规表现入门
正规表现入门
thinca
?
プログラミング言语の习得顺番について
プログラミング言语の习得顺番について
ichigats
?
09 manual writing20130611sample
09 manual writing20130611sample
和也 高山
?
Sigconf 2019 slide_ota_20191123
Sigconf 2019 slide_ota_20191123
博三 太田
?
joint_seminar
joint_seminar
Tomoyuki Kajiwara
?
日本语の语汇平易化システムおよび评価セットの构筑
日本语の语汇平易化システムおよび评価セットの构筑
Tomoyuki Kajiwara
?
ロジカルコミュニケーション
ロジカルコミュニケーション
ashizawa1 Ashizawa
?
Japan.r 2018 slide ota_20181201
Japan.r 2018 slide ota_20181201
博三 太田
?
Ultra Lightning Talk × 3
Ultra Lightning Talk × 3
Nagi Teramo
?
20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meeting
akikom0819
?
第1回 スライト?シェア用
第1回 スライト?シェア用
AYUMI12
?
A Neural Reordering Model for Phrase-based Translation
A Neural Reordering Model for Phrase-based Translation
Wataru Endo
?
自由文と自然言语、どちらがすぐれている?
自由文と自然言语、どちらがすぐれている?
Keisuke NAKAMURA
?
Jsai2021 winter ppt_ota_20211127
Jsai2021 winter ppt_ota_20211127
博三 太田
?
DeepLearning 中心に見る最近の論文事情
DeepLearning 中心に見る最近の論文事情
Yuta Yamashita
?
Logics 18th ota_20211201
Logics 18th ota_20211201
博三 太田
?
20150702文章読解支援のための日本语の语汇平易化システム
20150702文章読解支援のための日本语の语汇平易化システム
Tomoyuki Kajiwara
?
【Schoo web campus】「相手に伝わる」文章を書く技術 2限目
【Schoo web campus】「相手に伝わる」文章を書く技術 2限目
schoowebcampus
?
たのっち流コラムの书き方
たのっち流コラムの书き方
Daiki Tanoguchi
?
正规表现入门
正规表现入门
thinca
?
プログラミング言语の习得顺番について
プログラミング言语の习得顺番について
ichigats
?
09 manual writing20130611sample
09 manual writing20130611sample
和也 高山
?
Sigconf 2019 slide_ota_20191123
Sigconf 2019 slide_ota_20191123
博三 太田
?
日本语の语汇平易化システムおよび评価セットの构筑
日本语の语汇平易化システムおよび评価セットの构筑
Tomoyuki Kajiwara
?
ロジカルコミュニケーション
ロジカルコミュニケーション
ashizawa1 Ashizawa
?
Japan.r 2018 slide ota_20181201
Japan.r 2018 slide ota_20181201
博三 太田
?
Ultra Lightning Talk × 3
Ultra Lightning Talk × 3
Nagi Teramo
?
20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meeting
akikom0819
?
第1回 スライト?シェア用
第1回 スライト?シェア用
AYUMI12
?
A Neural Reordering Model for Phrase-based Translation
A Neural Reordering Model for Phrase-based Translation
Wataru Endo
?

Viewers also liked (20)

ガチャとは心の所作
ガチャとは心の所作
antibayesian 俺がS式だ
?
テキストマイニングのイメージと実际
テキストマイニングのイメージと実际
antibayesian 俺がS式だ
?
神の言语による自然言语処理
神の言语による自然言语処理
antibayesian 俺がS式だ
?
チームラボ忘年会
チームラボ忘年会
antibayesian 俺がS式だ
?
OpenID Foundation Foundation Financial API (FAPI) WG
OpenID Foundation Foundation Financial API (FAPI) WG
Nat Sakimura
?
JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響
JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響
Kyoshiro Sugiyama
?
Aizu.LT::Tokyo #2
Aizu.LT::Tokyo #2
Taku Unno
?
Абрамов Н.Н.
Абрамов Н.Н.
cpii33
?
认知科学会サマースクール2015?人工知能と言语机能
认知科学会サマースクール2015?人工知能と言语机能
Naoya Arakawa
?
sigfpai2009_okanohara
sigfpai2009_okanohara
Hiroshi Ono
?
质疑応答
质疑応答
武 河野
?
蚕补システム解説
蚕补システム解説
yayamamo @ DBCLS Kashiwanoha
?
言語処理のための仮説推論エンジン Phillip
言語処理のための仮説推論エンジン Phillip
Kazeto Yamamoto
?
会话型ロボットを作った话
会话型ロボットを作った话
Kasai Nobuhiro
?
黒い目の大きな女の子:构文から意味へ
黒い目の大きな女の子:构文から意味へ
Hiroshi Nakagawa
?
はじめてのAIプログラミング 5章: 知識表現
はじめてのAIプログラミング 5章: 知識表現
nkazuki
?
検索と自然言语処理
検索と自然言语処理
Wataru ONO
?
テキストマイニングのイメージと実际
テキストマイニングのイメージと実际
antibayesian 俺がS式だ
?
OpenID Foundation Foundation Financial API (FAPI) WG
OpenID Foundation Foundation Financial API (FAPI) WG
Nat Sakimura
?
JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響
JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響
Kyoshiro Sugiyama
?
Aizu.LT::Tokyo #2
Aizu.LT::Tokyo #2
Taku Unno
?
Абрамов Н.Н.
Абрамов Н.Н.
cpii33
?
认知科学会サマースクール2015?人工知能と言语机能
认知科学会サマースクール2015?人工知能と言语机能
Naoya Arakawa
?
sigfpai2009_okanohara
sigfpai2009_okanohara
Hiroshi Ono
?
言語処理のための仮説推論エンジン Phillip
言語処理のための仮説推論エンジン Phillip
Kazeto Yamamoto
?
会话型ロボットを作った话
会话型ロボットを作った话
Kasai Nobuhiro
?
黒い目の大きな女の子:构文から意味へ
黒い目の大きな女の子:构文から意味へ
Hiroshi Nakagawa
?
はじめてのAIプログラミング 5章: 知識表現
はじめてのAIプログラミング 5章: 知識表現
nkazuki
?
検索と自然言语処理
検索と自然言语処理
Wataru ONO
?
Ad

Similar to 第叁回さくさくテキストマイニング勉强会 入门セッション (20)

Jacet2014ykondo_final
Jacet2014ykondo_final
早稲田大学
?
英语学习者のための発话自动採点システムの开発.
英语学习者のための発话自动採点システムの开発.
Yutaka Ishii
?
日本语の语汇的换言知识の质的评価
日本语の语汇的换言知识の质的评価
Tomoyuki Kajiwara
?
ナイーブベイズによる言语判定
ナイーブベイズによる言语判定
Shuyo Nakatani
?
Developing User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text Analyzer
长冈技术科学大学 自然言语処理研究室
?
超絶技巧プログラミングと Ruby 3.0 (大江戸 Ruby 会議 05 コミッタ LT)
超絶技巧プログラミングと Ruby 3.0 (大江戸 Ruby 会議 05 コミッタ LT)
mametter
?
Segmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principle
Yusuke Matsubara
?
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
Yuki Arase
?
日本語文章に対する 述語項構造アノテーション仕様の考察
日本語文章に対する 述語項構造アノテーション仕様の考察
Yuichiroh Matsubayashi
?
言語モデル入門 (第二版)
言語モデル入門 (第二版)
Yoshinari Fujinuma
?
言语资源と付き合う
言语资源と付き合う
Yuya Unno
?
言语と知识の深层学习蔼认知科学会サマースクール
言语と知识の深层学习蔼认知科学会サマースクール
Yuya Unno
?
Nl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov Model
Kei Uchiumi
?
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
Yuki Arase
?
形态素解析
形态素解析
Works Applications
?
Ism npblm-20120315
Ism npblm-20120315
隆浩 安
?
プロソディの捉え方とその指导冲06.03.2015
プロソディの捉え方とその指导冲06.03.2015
Kazuhito Yamato
?
英语学习者のための発话自动採点システムの开発.
英语学习者のための発话自动採点システムの开発.
Yutaka Ishii
?
日本语の语汇的换言知识の质的评価
日本语の语汇的换言知识の质的评価
Tomoyuki Kajiwara
?
ナイーブベイズによる言语判定
ナイーブベイズによる言语判定
Shuyo Nakatani
?
超絶技巧プログラミングと Ruby 3.0 (大江戸 Ruby 会議 05 コミッタ LT)
超絶技巧プログラミングと Ruby 3.0 (大江戸 Ruby 会議 05 コミッタ LT)
mametter
?
Segmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principle
Yusuke Matsubara
?
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
Yuki Arase
?
日本語文章に対する 述語項構造アノテーション仕様の考察
日本語文章に対する 述語項構造アノテーション仕様の考察
Yuichiroh Matsubayashi
?
言語モデル入門 (第二版)
言語モデル入門 (第二版)
Yoshinari Fujinuma
?
言语资源と付き合う
言语资源と付き合う
Yuya Unno
?
言语と知识の深层学习蔼认知科学会サマースクール
言语と知识の深层学习蔼认知科学会サマースクール
Yuya Unno
?
Nl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov Model
Kei Uchiumi
?
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
Yuki Arase
?
Ism npblm-20120315
Ism npblm-20120315
隆浩 安
?
プロソディの捉え方とその指导冲06.03.2015
プロソディの捉え方とその指导冲06.03.2015
Kazuhito Yamato
?
Ad

第叁回さくさくテキストマイニング勉强会 入门セッション

  • 1. 入門セッション ● テキストマイニング必須用語を15分程度で紹介 ● 目的:初心者向け勉強会なので、基本用語から説 明すべきだが、各発表者がいちいち説明している と重複しまくって非効率なので、最初にまとめる ● セッション後、質問タイムを設けます。お気軽に御 質問下さい ● ※あくまでざっくりした説明です 1
  • 2. テキストマイニングの利用分野 1.マーケティング – 評判分析:売れ行き予測 – 需要の抽出:今どんな商品が求められているか? – 自社製品の強み弱み:強みを伸ばし、弱点を補う – インフルエンサーの特定:どこ/誰が影響力を持っているか 2.ナレッジの自動蓄積 ● メール等の文書をデータベース化 ● 暗黙知→形式知 3.自然言語処理的領域 – 検索、本文要約、IME、機械翻訳 2
  • 4. 言語処理の技術 (1) 形态素解析 ● 形態素とは:意味を持つ最小の文字列の単位 ● 分かち書き:文を単語に分割すること ● 形态素解析:分かち書き+品詞付け+原形復元 ● 日本語の分かち書きは難しい ● 英語等と違って単語の切れ目がわからない – 「すもももももももものうち」→「李も桃も桃の内」○ – 「東京都」→「東, 京都」? ● MeCab:非常によく使われる形态素解析エンジン 4
  • 5. 言語処理の技術 (2) 構文解析 ● 構文解析:文の構造(係り受け等)を明らかにする ● 係り受け:ある文節がどの文節に作用するか ● 例文:「黒い大きな瞳の男の娘」 ● (肌の)黒い、大きな瞳の、男の娘? ● 黒い大きな瞳の、男の娘? ● 黒い大きな瞳(さん)の男の娘? 5
  • 6. 言語処理の技術 (3) 意味解析 ● 意味解析:評判分析等で使われる ● 「泣ける」という単語はポジティブ?ネガティブ? – 「映画」+泣ける?感動した!というポジティブ表現 – 「試験」+泣ける?結果が悪かった!というネガティブ表現 – 単語の意味は文脈によって変わる可能性がある ● 語義曖昧性解消:単語の複数の意味の中から、文 に応じた語義を特定すること ● 単語情報単体で自然言語の全てを理解できるわけ ではない 6
  • 7. テキストの統計処理 ● 単語:トークンとタイプ – “nurture or nature? nurture passes nature”は何単語? – 6(節)と答えるのがトークン – 4(種類)と答えるのがタイプ ● bag-of-words(BOW):文章の単語ベクトル表現 – 柴犬が私を噛んだ→{柴犬,が,私,を,噛ん,だ} – {柴犬,が,私,を,噛ん,だ} = {私,が,柴犬,を,噛ん,だ} ● Nグラム:隣接するN単位の共起 – 単語2グラム[柴犬,が][が,私][私,を][を,噛ん][噛ん,だ] – 文字2グラム(柴,犬)(犬,が)(が,私)(私,を)(を,噛)(噛,ん)(ん,だ) 7
  • 8. 頻出専門用語 ● コーパス:言語の分析用例データ ● 素性:文法的な情報を表す特徴量(単語頻度等) ● シソーラス:階層構造を持った類義語辞書 ● 照応解析:代名詞が指しているものを明らかにする ● 省略補完:省略された主語などを補完する ● チャンキング:文の意味的な固まりを見つける技術 ● 格フレーム:ある語の語義毎に共起する語の組 ● 機械学習:人間の学習能力をコンピュータに持た せて、分類や判別、予測などを行う研究分野 – 教師有り学習:与えられた正解例に沿う様、分類などを行う 8 – 教師無し学習:入力値から頻出/特殊なパターンを見出す