狠狠撸

狠狠撸Share a Scribd company logo
おとなのテキストマイニング

       @pinktx_jp

    2012.11.23 Gunma.web #11
今回の主役
超有名人
おとなのテキストマイニング
おとなのテキストマイニング
ルイージ
テキストマイニング
テキストマイニング
テキストマイニング( text mining )は、テキストを対象と
したデータマイニングのことである。通常の文章からなる
データを単語や文節で区切り、それらの出現の頻度や共出現
の相関、出現傾向、時系列などを解析することで有用な情報
を取り出す、
テキストデータの分析方法である。




                 http://ja.wikipedia.org/wiki/テキストマイニング
自然言語処理
自然言語処理(しぜんげんごしょり、英語 : natural
language processing 、略称: NLP )は、人間が日常的に
使っている自然言語をコンピュータに処理させる一連の技術
であり、人工知能と言語学の一分野である。




                      http://ja.wikipedia.org/wiki/自然言語処理
人间语をコンピュータで扱い
   やすい形にする事
形態素解析
対象言語の文法の知識(文法のルールの集まり)や辞書(品
詞等の情報付きの単語リスト)を情報源として用い、自然言
語で書かれた文を形態素( Morpheme, おおまかにいえば、
言語で意味を持つ最小単位)の列に分割し、それぞれの品詞
を判別する作業を指す。




                   丑迟迟辫://箩补.飞颈办颈辫别诲颈补.辞谤驳/飞颈办颈/形态素解析
文章を単语単位に分けて、品
   词を特定すること
英語の場合
 Mankind has arrived at Jupiter for
 the first time today.
英語の場合
 Mankind has arrived at Jupiter for
 the first time today.


日本語の場合
 今日人類が初めて木星に着いたよ
 。
英語の場合
 Mankind has arrived at Jupiter for
 the first time today.


日本語の場合
 今日人類が初めて木星に着いたよ
 。
 わかち書きが必要
わかち書き(形態素解析)
$ 今日人類が初めて木星に着いたよ
わかち書き(形態素解析)
$ 今日人類が初めて木星に着いたよ

今日   名詞 , 副詞可能 ,*,*,*,*, 今日 , キョウ , キョー
人類   名詞 , 一般 ,*,*,*,*, 人類 , ジンルイ , ジンルイ
が     助詞 , 格助詞 , 一般 ,*,*,*, が , ガ , ガ
初めて  副詞 , 一般 ,*,*,*,*, 初めて , ハジメテ , ハジメテ
木星   名詞 , 一般 ,*,*,*,*, 木星 , モクセイ , モクセイ
に     助詞 , 格助詞 , 一般 ,*,*,*, に , ニ , ニ
着い   動詞 , 自立 ,*,*, 五段?カ行イ音便 , 連用タ接続 , 着く ,
  ツイ , ツイ
た     助動詞 ,*,*,*, 特殊?タ , 基本形 , た , タ , タ
よ     助詞 , 終助詞 ,*,*,*,*, よ , ヨ , ヨ
MeCab
MeCab
? オープンソースの形態素解析エンジン
? Google 日本語入力開発者の一人である
  工藤拓氏によって開発
? MacOS や iOS 等にも採用されている




          http://ja.wikipedia.org/wiki/MeCab
おとなのテキストマイニング
ここから若干おとな向けなお
   话が含まれます
おとなのテキストマイニン
グに
必要なもの
おとなのテキストマイニン
グに
必要なもの
? r18-words.dic
   - 18 禁ワードに特化した辞書
? pornostar-jp.dic
  -   日本の AV 女優さんの名前辞書
用途
用途

类似文書の検索
おさらい




ちょっとだけ物足りない機能

 閲覧中のモノと関連した動画の紹
        介
おとなのテキストマイニング
もっと似ているもの
щ( ? д ? щ) ??????
类似文书を検索出来れば…
类似文书を検索出来れば…
閲覧中の動画と类似の動画も検索可
       能!
        ||
      関連動画
デモ
デモ
… は危険なので割合させて頂きます(汗
分かりやすい类似検索の例
分かりやすい类似検索の例

? 検索ワード「 JK 」   ? 検索ワード「ナー
  – JK            ス」
  – 女子高生          – ナース
  – 女子校生          – 看護婦
  – 女子●生          – 看護師
                  – 白衣の天使
                  – 看護学生
类似文書の検索
? 精度を出すには超高次元での空間イン
  デックスが必要( R-Tress や SR-
  Tree )
? 高次元にするほど精度が高くなる
? 高次元にするほどパフォーマンスが悪
  化する(次元の呪い)
类似文書の検索
? LSH(Locality Sensitive Hashing) に代表
  される「近似型」のインデックスを用
  いることでパフォーマンスの問題を改
  善する事ができる
Luigi
类似
Luigi とは
? Perl で書かれた类似検索エンジン。
? 近似型のインデックスを使っています
  。
? そこそこ精度がよく高速に動作します
  。

           実験的なコードなので CPAN にはアップされていません

           GitHub: https://github.com/miki/Luigi
最後に

  今回の発表内容を実装した
サービスの紹介をさせて頂きます
けしからん動画を快適に見よう!




morolicious
  http://morolicio.us/
β 版ですが、稼働しているの
       で
息抜きの時にでも
使って頂けたら光栄です
第
      八

ヌ     発


  注
キ過、
ご清聴ありがとうございまし
      た
ちなみにサービス名
mojolicious




Wikipedia より
     Web アプリケーションフレームワーク Catalyst の作者であるセ
     バスチャン?リーデルによって書かれたリアルタイム Web アプ
     リケーションフレームワーク。
サービスの対象者


” おとな”
おとな + mojolicious
おとな + mojolicious
       =

 morolicious
けしからん動画を快適に見よう!




morolicious
  http://morolicio.us/

      @morolicio_us
おとなのテキストマイニング
Ad

Recommended

PDF
さくさくテキストマイニング入门セッション
antibayesian 俺がS式だ
?
PDF
第叁回さくさくテキストマイニング勉强会 入门セッション
antibayesian 俺がS式だ
?
PDF
言语処理学会へ游びに行ったよ
antibayesian 俺がS式だ
?
PDF
Dic 1707 ai_人工知能概論_鈴木悠一
悠一 鈴木
?
PPTX
nl-1. 形態素解析と構文解析
kunihikokaneko1
?
PDF
社内勉強会 2014/10/08
Takaki Yoneyama
?
PDF
Python nlp handson_20220225_v5
博三 太田
?
PPTX
DeepLearning 中心に見る最近の論文事情
Yuta Yamashita
?
PDF
2021年度 人工知能学会全国大会 第35回
博三 太田
?
PPTX
次元の呪い
Kosuke Tsujino
?
PPTX
Dynamic Entity Representations in Neural Language Models
Shun Kiyono
?
PPTX
Signl213
Kei Uchiumi
?
PDF
自然言语処理における意味解析と意味理解
Kanji Takahashi
?
PPTX
最先端NLP勉強会 Context Gates for Neural Machine Translation
Masahiro Yamamoto
?
PDF
6/9 学生LT用资料
Naoaki Yamaguchi
?
KEY
集合知プログラミング勉強会キックオフMTG LT用资料
tetsuro ito
?
PDF
复数の客観的手法を用いたテキスト含意认识评価セットの构筑
长冈技术科学大学 自然言语処理研究室
?
PPTX
搁はいいぞ!むしろなぜ使わないのか!!
Shushi Namba
?
PPTX
Nl220 Pitman-Yor Hidden Semi Markov Model
Kei Uchiumi
?
PDF
20150702文章読解支援のための日本语の语汇平易化システム
Tomoyuki Kajiwara
?
PPTX
ニューラルチューリンク?マシン入门
naoto moriyama
?
PPTX
Deep forest
naoto moriyama
?
PDF
【Schoo web campus】「相手に伝わる」文章を書く技術
schoowebcampus
?
PDF
Building Evaluation Sets for Textual Entailment Recognition
长冈技术科学大学 自然言语処理研究室
?
PDF
Jsai2021 winter ppt_ota_20211127
博三 太田
?
PDF
最先端NLP勉強会 “Learning Language Games through Interaction” Sida I. Wang, Percy L...
Yuya Unno
?
PDF
Logics 18th ota_20211201
博三 太田
?
PDF
自由文と自然言语、どちらがすぐれている?
Keisuke NAKAMURA
?
PDF
情报検索の基础からデータの彻底活用まで
Koji Sekiguchi
?
PDF
「ふわっと関连検索」のこれまでとこれから
Masao Takaku
?

More Related Content

What's hot (20)

PDF
2021年度 人工知能学会全国大会 第35回
博三 太田
?
PPTX
次元の呪い
Kosuke Tsujino
?
PPTX
Dynamic Entity Representations in Neural Language Models
Shun Kiyono
?
PPTX
Signl213
Kei Uchiumi
?
PDF
自然言语処理における意味解析と意味理解
Kanji Takahashi
?
PPTX
最先端NLP勉強会 Context Gates for Neural Machine Translation
Masahiro Yamamoto
?
PDF
6/9 学生LT用资料
Naoaki Yamaguchi
?
KEY
集合知プログラミング勉強会キックオフMTG LT用资料
tetsuro ito
?
PDF
复数の客観的手法を用いたテキスト含意认识评価セットの构筑
长冈技术科学大学 自然言语処理研究室
?
PPTX
搁はいいぞ!むしろなぜ使わないのか!!
Shushi Namba
?
PPTX
Nl220 Pitman-Yor Hidden Semi Markov Model
Kei Uchiumi
?
PDF
20150702文章読解支援のための日本语の语汇平易化システム
Tomoyuki Kajiwara
?
PPTX
ニューラルチューリンク?マシン入门
naoto moriyama
?
PPTX
Deep forest
naoto moriyama
?
PDF
【Schoo web campus】「相手に伝わる」文章を書く技術
schoowebcampus
?
PDF
Building Evaluation Sets for Textual Entailment Recognition
长冈技术科学大学 自然言语処理研究室
?
PDF
Jsai2021 winter ppt_ota_20211127
博三 太田
?
PDF
最先端NLP勉強会 “Learning Language Games through Interaction” Sida I. Wang, Percy L...
Yuya Unno
?
PDF
Logics 18th ota_20211201
博三 太田
?
PDF
自由文と自然言语、どちらがすぐれている?
Keisuke NAKAMURA
?
2021年度 人工知能学会全国大会 第35回
博三 太田
?
次元の呪い
Kosuke Tsujino
?
Dynamic Entity Representations in Neural Language Models
Shun Kiyono
?
Signl213
Kei Uchiumi
?
自然言语処理における意味解析と意味理解
Kanji Takahashi
?
最先端NLP勉強会 Context Gates for Neural Machine Translation
Masahiro Yamamoto
?
6/9 学生LT用资料
Naoaki Yamaguchi
?
集合知プログラミング勉強会キックオフMTG LT用资料
tetsuro ito
?
复数の客観的手法を用いたテキスト含意认识评価セットの构筑
长冈技术科学大学 自然言语処理研究室
?
搁はいいぞ!むしろなぜ使わないのか!!
Shushi Namba
?
Nl220 Pitman-Yor Hidden Semi Markov Model
Kei Uchiumi
?
20150702文章読解支援のための日本语の语汇平易化システム
Tomoyuki Kajiwara
?
ニューラルチューリンク?マシン入门
naoto moriyama
?
Deep forest
naoto moriyama
?
【Schoo web campus】「相手に伝わる」文章を書く技術
schoowebcampus
?
Building Evaluation Sets for Textual Entailment Recognition
长冈技术科学大学 自然言语処理研究室
?
Jsai2021 winter ppt_ota_20211127
博三 太田
?
最先端NLP勉強会 “Learning Language Games through Interaction” Sida I. Wang, Percy L...
Yuya Unno
?
Logics 18th ota_20211201
博三 太田
?
自由文と自然言语、どちらがすぐれている?
Keisuke NAKAMURA
?

Viewers also liked (20)

PDF
情报検索の基础からデータの彻底活用まで
Koji Sekiguchi
?
PDF
「ふわっと関连検索」のこれまでとこれから
Masao Takaku
?
PPTX
ビジネスで使えるオープンデータの技术@ビジネス活用のためのオープンデータセミナー(2016.01.22)
Ikki Ohmukai
?
PDF
高久研究室の绍介(2016年度)
Masao Takaku
?
PDF
研究室绍介:高久研究室
Masao Takaku
?
PPT
Brain Profile Ppt 01 10
IIR
?
PPTX
つながる目録、つながるサービス@図书馆総合展(2015.11.12)
Ikki Ohmukai
?
PPTX
Information retrieval model
Yuku Takahashi
?
PDF
生命科学?农学研究のための情报検索の基础
Takeru Nakazato
?
PDF
情报検索の基础(11章)
Katsuki Tanaka
?
PDF
広告配信のための高速疎ベクトル検索エンジンの開発@WebDBフォーラム2015 #webdbf2015
驰补丑辞辞!デベロッパーネットワーク
?
PPTX
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
Koji Sekiguchi
?
PDF
効果的な文献検索と最新论文の情报を入手する秘诀
英文校正エディテージ
?
PDF
贰濒补蝉迟颈肠厂别补谤肠丑て?いろいろやってる话
Shinya Takara
?
PPTX
単语分散表现のアライメントに基づく文间类似度を用いたテキスト平易化のための単言语パラレルコーパスの构筑
Tomoyuki Kajiwara
?
PDF
JIT のコードを読んでみた
y-uti
?
PPTX
パケットジェネレータ颈辫驳别苍から见る苍别迟尘补辫
furandon_pig
?
PPTX
検索のダウンタイム0でバックアップから颈苍诲别虫をリストアする方法
kbigwheel
?
PDF
はてなブックマークに基づく関连记事レコメンドエンジンの开発
Shunsuke Kozawa
?
PDF
プログラマのための文书推荐入门
y-uti
?
情报検索の基础からデータの彻底活用まで
Koji Sekiguchi
?
「ふわっと関连検索」のこれまでとこれから
Masao Takaku
?
ビジネスで使えるオープンデータの技术@ビジネス活用のためのオープンデータセミナー(2016.01.22)
Ikki Ohmukai
?
高久研究室の绍介(2016年度)
Masao Takaku
?
研究室绍介:高久研究室
Masao Takaku
?
Brain Profile Ppt 01 10
IIR
?
つながる目録、つながるサービス@図书馆総合展(2015.11.12)
Ikki Ohmukai
?
Information retrieval model
Yuku Takahashi
?
生命科学?农学研究のための情报検索の基础
Takeru Nakazato
?
情报検索の基础(11章)
Katsuki Tanaka
?
広告配信のための高速疎ベクトル検索エンジンの開発@WebDBフォーラム2015 #webdbf2015
驰补丑辞辞!デベロッパーネットワーク
?
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
Koji Sekiguchi
?
効果的な文献検索と最新论文の情报を入手する秘诀
英文校正エディテージ
?
贰濒补蝉迟颈肠厂别补谤肠丑て?いろいろやってる话
Shinya Takara
?
単语分散表现のアライメントに基づく文间类似度を用いたテキスト平易化のための単言语パラレルコーパスの构筑
Tomoyuki Kajiwara
?
JIT のコードを読んでみた
y-uti
?
パケットジェネレータ颈辫驳别苍から见る苍别迟尘补辫
furandon_pig
?
検索のダウンタイム0でバックアップから颈苍诲别虫をリストアする方法
kbigwheel
?
はてなブックマークに基づく関连记事レコメンドエンジンの开発
Shunsuke Kozawa
?
プログラマのための文书推荐入门
y-uti
?
Ad

Similar to おとなのテキストマイニング (20)

PPTX
Perl で自然言語処理
Toshinori Sato
?
PPTX
NLP x Lucene/Solr
Koji Sekiguchi
?
PDF
Search on AWS - IVS CTO Night and Day 2016 Spring
Eiji Shinohara
?
PDF
鬱くしい日本语のための形态素解析入门
Hiroyoshi Komatsu
?
PDF
2010 ase-automatic detection of nocuous coordination ambiguities in natural l...
n-yuki
?
PPTX
さくっとはじめるテキストマイニング(搁言语)  スタートアップ编
Yutaka Shimada
?
PDF
质问応答システム入门
Hiroyoshi Komatsu
?
PDF
?本语全?検索
kmiyako
?
PDF
オントロジー検索エンジンを用いた领域オントロジー构筑支援环境顿翱顿顿尝贰-翱奥尝の拡张
Takeshi Morita
?
PDF
Lucene/Solr 用形態素解析システムのご紹介 ベイシス?テクノロジー
Basis Technology K.K.
?
PDF
Elasticsearch入門 pyfes 201207
Jun Ohtani
?
PPTX
Microsoft Cognitive Services NLP APIs
zuhitoslide
?
PDF
サポーターズ勉強会スライド 2018/2/27
Kensuke Mitsuzawa
?
PDF
Research and Development Review of Ken Washikita, 2019/02
SAKURA Internet Inc.
?
PPTX
资料
Bob_Mk2
?
PDF
全脳型アーキテクチュア贬补苍诲辞耻迟
Seiji Koide
?
PDF
厂别蝉蝉颈辞苍2:「グローバル化する情报処理」/伊藤敬彦
Preferred Networks
?
PDF
bigdata2012nlp okanohara
Preferred Networks
?
PDF
トーゴーの日2014ポスター
yayamamo @ DBCLS Kashiwanoha
?
PDF
セマンテックウェブと搁顿贵顿叠
Hirosuke Asano
?
Perl で自然言語処理
Toshinori Sato
?
NLP x Lucene/Solr
Koji Sekiguchi
?
Search on AWS - IVS CTO Night and Day 2016 Spring
Eiji Shinohara
?
鬱くしい日本语のための形态素解析入门
Hiroyoshi Komatsu
?
2010 ase-automatic detection of nocuous coordination ambiguities in natural l...
n-yuki
?
さくっとはじめるテキストマイニング(搁言语)  スタートアップ编
Yutaka Shimada
?
质问応答システム入门
Hiroyoshi Komatsu
?
?本语全?検索
kmiyako
?
オントロジー検索エンジンを用いた领域オントロジー构筑支援环境顿翱顿顿尝贰-翱奥尝の拡张
Takeshi Morita
?
Lucene/Solr 用形態素解析システムのご紹介 ベイシス?テクノロジー
Basis Technology K.K.
?
Elasticsearch入門 pyfes 201207
Jun Ohtani
?
Microsoft Cognitive Services NLP APIs
zuhitoslide
?
サポーターズ勉強会スライド 2018/2/27
Kensuke Mitsuzawa
?
Research and Development Review of Ken Washikita, 2019/02
SAKURA Internet Inc.
?
资料
Bob_Mk2
?
全脳型アーキテクチュア贬补苍诲辞耻迟
Seiji Koide
?
厂别蝉蝉颈辞苍2:「グローバル化する情报処理」/伊藤敬彦
Preferred Networks
?
bigdata2012nlp okanohara
Preferred Networks
?
トーゴーの日2014ポスター
yayamamo @ DBCLS Kashiwanoha
?
セマンテックウェブと搁顿贵顿叠
Hirosuke Asano
?
Ad

More from Munenori Sugimura (8)

PPTX
贰颁-颁鲍叠贰で宅配伝票の印刷
Munenori Sugimura
?
PPT
痴颈尘の话
Munenori Sugimura
?
PPT
EC-CUBE on Bootstrap3 - Gunma.web#16
Munenori Sugimura
?
PPT
20% - Gunma.web#15
Munenori Sugimura
?
PPT
Perl Beginners #7 おとなのWAF
Munenori Sugimura
?
PPT
碍辞颈::叠补苍补?恋に落ちたエンジニア?
Munenori Sugimura
?
PPT
尝顿顿による奥别产アプリケーション开発
Munenori Sugimura
?
PPT
モダンでオサレな飞别产サイト
Munenori Sugimura
?
贰颁-颁鲍叠贰で宅配伝票の印刷
Munenori Sugimura
?
痴颈尘の话
Munenori Sugimura
?
EC-CUBE on Bootstrap3 - Gunma.web#16
Munenori Sugimura
?
20% - Gunma.web#15
Munenori Sugimura
?
Perl Beginners #7 おとなのWAF
Munenori Sugimura
?
碍辞颈::叠补苍补?恋に落ちたエンジニア?
Munenori Sugimura
?
尝顿顿による奥别产アプリケーション开発
Munenori Sugimura
?
モダンでオサレな飞别产サイト
Munenori Sugimura
?

Recently uploaded (7)

PDF
础滨技术共有会2025-06-05冲顿别别辫搁别蝉别补谤肠丑の理解と実践.辫诲蹿
Takuma Oda
?
PPTX
勉強会_ターミナルコマント?入力迅速化_20250620. pptx. .
iPride Co., Ltd.
?
PDF
PGConf.dev 2025 参加レポート (JPUG総会併設セミナー2025 発表资料)
NTT DATA Technology & Innovation
?
PPTX
Vibe Codingを始めよう ?Cursorを例に、ノーコードでのプログラミング体験?
iPride Co., Ltd.
?
PDF
Forguncy 10 製品概要资料 - ノーコードWebアプリ開発プラットフォーム
フォーガンシー
?
PPTX
Protect Your IoT Data with UbiBot's Private Platform.pptx
ユビボット 株式会社
?
PPTX
色について.pptx .
iPride Co., Ltd.
?
础滨技术共有会2025-06-05冲顿别别辫搁别蝉别补谤肠丑の理解と実践.辫诲蹿
Takuma Oda
?
勉強会_ターミナルコマント?入力迅速化_20250620. pptx. .
iPride Co., Ltd.
?
PGConf.dev 2025 参加レポート (JPUG総会併設セミナー2025 発表资料)
NTT DATA Technology & Innovation
?
Vibe Codingを始めよう ?Cursorを例に、ノーコードでのプログラミング体験?
iPride Co., Ltd.
?
Forguncy 10 製品概要资料 - ノーコードWebアプリ開発プラットフォーム
フォーガンシー
?
Protect Your IoT Data with UbiBot's Private Platform.pptx
ユビボット 株式会社
?
色について.pptx .
iPride Co., Ltd.
?

おとなのテキストマイニング

Editor's Notes

  • #30: 嗜好 = しこう
  • #31: 嗜好 = しこう
  • #40: 説明はしないで 类似検索を実現するために使っているライブラリです。