狠狠撸

狠狠撸Share a Scribd company logo
2014/01/11

第一回つくばデータマイニング勉強会
プログラムもアルゴリズム理解も不要な
機械学習テキストマイニング

KNIME及びTiny Text Minerを利用

from2001
今日利用する機械学習アルゴリズム
サポートベクターマシン、ニューラルネットワーク、ランダムフォレスト
をネットで調べると

この段階で、なんだか
挫折しそう。。。

2
今回の機械学習テキストマイニングLTの概要

ブログの文章を
テキストマイニングし
誰のブログかを判別する

今回対象とするのは
3
4
今日利用する機械学習アルゴリズム
サポートベクターマシン、ニューラルネットワーク、ランダムフォレスト
をネットで調べると

難しいことが書いてあって
くじけそうになる

5
今日はプログラムは一切使わず

KNIME
(the Konstanz Information Miner)

TTM
(Tiny Text Miner)
6
理解しておくべき概念1-機械学習

ブログの本文データ
7
理解しておくべき概念1-機械学習

人間がタグを付けます

加藤茶

安倍晋三

加藤茶

安倍晋三

大島優子

ブログの本文データ

教師データといいます
8
理解しておくべき概念1-機械学習

加藤茶

安倍晋三

加藤茶

安倍晋三

大島優子

学習させる

分類器
パターンを学習する

9
理解しておくべき概念1-機械学習

コレハ
オオシマユウコ
ノ ブログ

未知のブログ文章を分類できるようになる

分類器
10
理解しておくべき概念2-形態素解析
コンピューターが理解しやすい
ような形式に日本語を変換

歯磨けよ!風邪引くなよ!また明日!

分類器
!
歯磨けよ!風邪引く
なよ!また明日!

歯
3

明日
1

引く
1

風邪
1

磨ける
1

1

11
では実際にやってみる

12
①カンマ区切りデータを用意
1列名:タグ(誰のブログか)
2列目:本文(改行削除)

13
②形態素解析する

TTMにデータを渡す
と後は自動でやっ
てくれます

14
各語の出現件数表が出力されます

15
不必要な行?列を消します
16
このデータをKNIMEで機械学習させます

17
下記のフローを実装します

学習させる
75件を教師データに
150件のデータ

タグ付き
CSVデータ
を読み込む

学習済みモデル

データを
分割

分類

評価

のこり75件のタグ無
しデータ

18
簡単なので

実際に一緒にやってみましょう

19
KNIMEを使えば、簡単

20
他のアルゴリズムに
切り替えるのも簡単

サポートベクターマシン用Node

ニューラルネットワーク用Node

21
3人のブログは
機械学習で識別可能!

では、
22
お笑い

政治家

加藤茶

安倍晋三

アイドル

大島優子

指原莉乃

AKBが二人混ざっていても分類可能なのか?
23
AKB二人もきっちり識別!!!

Random Forest利用
24
おしまい

25
Ad

Recommended

贰厂骋评価を支える自然言语処理基盘の构筑
贰厂骋评価を支える自然言语処理基盘の构筑
Takahiro Kubo
?
语の分散表现と上位下位関係―研究动向と今后への试案―
语の分散表现と上位下位関係―研究动向と今后への试案―
Washio Koki
?
エクセルでテキストマイニング TTM2HADの使い方
エクセルでテキストマイニング TTM2HADの使い方
Hiroshi Shimizu
?
【東工大?鈴木良郎の論文紹介】10万枚の網膜画像を 1枚も誤判定なく異常判定可能なAI(論文の原題:Deep learning achieves perf...
【東工大?鈴木良郎の論文紹介】10万枚の網膜画像を 1枚も誤判定なく異常判定可能なAI(論文の原題:Deep learning achieves perf...
ssuser1bf283
?
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
cyberagent
?
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
?
実践 Amazon Mechanical Turk ※下記の注意点をご覧ください(回答の質の悪化?報酬額の相場の変化?仕様変更)
実践 Amazon Mechanical Turk ※下記の注意点をご覧ください(回答の質の悪化?報酬額の相場の変化?仕様変更)
Ayako_Hasegawa
?
勉强会用スライド
勉强会用スライド
harmonylab
?
础滨と最适化の违いをうっかり闻いてしまう前に
础滨と最适化の违いをうっかり闻いてしまう前に
Monta Yashi
?
信号の独立性に基づく多チャンネル音源分离
信号の独立性に基づく多チャンネル音源分离
NU_I_TODALAB
?
【論文紹介】Understanding Back-Translation at Scale
【論文紹介】Understanding Back-Translation at Scale
Tomoyuki Hioki
?
文献调査をどのように行うべきか?
文献调査をどのように行うべきか?
Yuichi Goto
?
Cookpad TechConf 2016 - DWHに必要なこと
Cookpad TechConf 2016 - DWHに必要なこと
Minero Aoki
?
LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要
Kenji Urai
?
クラシックな机械学习入门 1 导入
クラシックな机械学习入门 1 导入
Hiroshi Nakagawa
?
(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中...
(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中...
KIT Cognitive Interaction Design
?
CVPR 2019 速報
CVPR 2019 速報
cvpaper. challenge
?
【DL輪読会】Dropout Reduces Underfitting
【DL輪読会】Dropout Reduces Underfitting
Deep Learning JP
?
ディープラーニングの最新动向
ディープラーニングの最新动向
Preferred Networks
?
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
Deep Learning JP
?
Recurrent Neural Networks
Recurrent Neural Networks
Seiya Tokui
?
A beautiful mind
A beautiful mind
tahreemsaleem
?
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Deep Learning JP
?
抽出型要约と言い换えによる生成型要约の训练データ拡张
抽出型要约と言い换えによる生成型要约の训练データ拡张
MENGSAYLOEM1
?
时系列予测に罢谤补苍蝉蹿辞谤尘别谤を使うのは有効か?
时系列予测に罢谤补苍蝉蹿辞谤尘别谤を使うのは有効か?
Fumihiko Takahashi
?
コンピュータビジョンの観点から见た础滨の公平性
コンピュータビジョンの観点から见た础滨の公平性
cvpaper. challenge
?
Facebookの人工知能アルコ?リス?ム「memory networks」について調へ?てみた
Facebookの人工知能アルコ?リス?ム「memory networks」について調へ?てみた
株式会社メタップスホールディングス
?
Transformer 動向調査 in 画像認識
Transformer 動向調査 in 画像認識
Kazuki Maeno
?
Open Source Data Mining - Data Mining Cup 2007
Christian Schieder
?
さくっとはじめるテキストマイニング(搁言语)  スタートアップ编
さくっとはじめるテキストマイニング(搁言语)  スタートアップ编
Yutaka Shimada
?

More Related Content

What's hot (20)

础滨と最适化の违いをうっかり闻いてしまう前に
础滨と最适化の违いをうっかり闻いてしまう前に
Monta Yashi
?
信号の独立性に基づく多チャンネル音源分离
信号の独立性に基づく多チャンネル音源分离
NU_I_TODALAB
?
【論文紹介】Understanding Back-Translation at Scale
【論文紹介】Understanding Back-Translation at Scale
Tomoyuki Hioki
?
文献调査をどのように行うべきか?
文献调査をどのように行うべきか?
Yuichi Goto
?
Cookpad TechConf 2016 - DWHに必要なこと
Cookpad TechConf 2016 - DWHに必要なこと
Minero Aoki
?
LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要
Kenji Urai
?
クラシックな机械学习入门 1 导入
クラシックな机械学习入门 1 导入
Hiroshi Nakagawa
?
(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中...
(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中...
KIT Cognitive Interaction Design
?
CVPR 2019 速報
CVPR 2019 速報
cvpaper. challenge
?
【DL輪読会】Dropout Reduces Underfitting
【DL輪読会】Dropout Reduces Underfitting
Deep Learning JP
?
ディープラーニングの最新动向
ディープラーニングの最新动向
Preferred Networks
?
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
Deep Learning JP
?
Recurrent Neural Networks
Recurrent Neural Networks
Seiya Tokui
?
A beautiful mind
A beautiful mind
tahreemsaleem
?
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Deep Learning JP
?
抽出型要约と言い换えによる生成型要约の训练データ拡张
抽出型要约と言い换えによる生成型要约の训练データ拡张
MENGSAYLOEM1
?
时系列予测に罢谤补苍蝉蹿辞谤尘别谤を使うのは有効か?
时系列予测に罢谤补苍蝉蹿辞谤尘别谤を使うのは有効か?
Fumihiko Takahashi
?
コンピュータビジョンの観点から见た础滨の公平性
コンピュータビジョンの観点から见た础滨の公平性
cvpaper. challenge
?
Facebookの人工知能アルコ?リス?ム「memory networks」について調へ?てみた
Facebookの人工知能アルコ?リス?ム「memory networks」について調へ?てみた
株式会社メタップスホールディングス
?
Transformer 動向調査 in 画像認識
Transformer 動向調査 in 画像認識
Kazuki Maeno
?
础滨と最适化の违いをうっかり闻いてしまう前に
础滨と最适化の违いをうっかり闻いてしまう前に
Monta Yashi
?
信号の独立性に基づく多チャンネル音源分离
信号の独立性に基づく多チャンネル音源分离
NU_I_TODALAB
?
【論文紹介】Understanding Back-Translation at Scale
【論文紹介】Understanding Back-Translation at Scale
Tomoyuki Hioki
?
文献调査をどのように行うべきか?
文献调査をどのように行うべきか?
Yuichi Goto
?
Cookpad TechConf 2016 - DWHに必要なこと
Cookpad TechConf 2016 - DWHに必要なこと
Minero Aoki
?
LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要
Kenji Urai
?
クラシックな机械学习入门 1 导入
クラシックな机械学习入门 1 导入
Hiroshi Nakagawa
?
(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中...
(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中...
KIT Cognitive Interaction Design
?
【DL輪読会】Dropout Reduces Underfitting
【DL輪読会】Dropout Reduces Underfitting
Deep Learning JP
?
ディープラーニングの最新动向
ディープラーニングの最新动向
Preferred Networks
?
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
Deep Learning JP
?
Recurrent Neural Networks
Recurrent Neural Networks
Seiya Tokui
?
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Deep Learning JP
?
抽出型要约と言い换えによる生成型要约の训练データ拡张
抽出型要约と言い换えによる生成型要约の训练データ拡张
MENGSAYLOEM1
?
时系列予测に罢谤补苍蝉蹿辞谤尘别谤を使うのは有効か?
时系列予测に罢谤补苍蝉蹿辞谤尘别谤を使うのは有効か?
Fumihiko Takahashi
?
コンピュータビジョンの観点から见た础滨の公平性
コンピュータビジョンの観点から见た础滨の公平性
cvpaper. challenge
?
Transformer 動向調査 in 画像認識
Transformer 動向調査 in 画像認識
Kazuki Maeno
?

Viewers also liked (20)

Open Source Data Mining - Data Mining Cup 2007
Christian Schieder
?
さくっとはじめるテキストマイニング(搁言语)  スタートアップ编
さくっとはじめるテキストマイニング(搁言语)  スタートアップ编
Yutaka Shimada
?
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
sugiyama koki
?
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks
Yuya Unno
?
データ?テキストマイニング
データ?テキストマイニング
Hiroshi Ono
?
20130916第3回テキストマイニングシンポジウム资料(浅野)
20130916第3回テキストマイニングシンポジウム资料(浅野)
Hirosuke Asano
?
书籍『シグナル&补尘辫;ノイズ』解説
书籍『シグナル&补尘辫;ノイズ』解説
Hirosuke Asano
?
言语処理学会へ游びに行ったよ
言语処理学会へ游びに行ったよ
antibayesian 俺がS式だ
?
テキストマイニングのイメージと実际
テキストマイニングのイメージと実际
antibayesian 俺がS式だ
?
素人が罢贵-滨顿贵でキーワード抽出をやってみた
素人が罢贵-滨顿贵でキーワード抽出をやってみた
smzkng
?
感情分析で株価を予測して おこづかい稼ぎ 日経版
感情分析で株価を予測して おこづかい稼ぎ 日経版
saito_hirokazu
?
Tokyo webmining発表資料 20111127
Tokyo webmining発表資料 20111127
kan_yukiko
?
テキストマイニングで発掘!? 売上とユーザーレビューの相関分析
テキストマイニングで発掘!? 売上とユーザーレビューの相関分析
Shintaro Takemura
?
推薦システムになにができるのか - Techcompass
推薦システムになにができるのか - Techcompass
Yoshifumi Seki
?
搁で罢飞颈迟迟别谤テキストマイニング
搁で罢飞颈迟迟别谤テキストマイニング
Yudai Shinbo
?
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』
The Japan DataScientist Society
?
贰濒补蝉迟颈肠蝉别补谤肠丑ベースの全文検索システム贵别蝉蝉
贰濒补蝉迟颈肠蝉别补谤肠丑ベースの全文検索システム贵别蝉蝉
Shinsuke Sugaya
?
搁ではじめる罢飞颈迟迟别谤解析
搁ではじめる罢飞颈迟迟别谤解析
Takeshi Arabiki
?
闯耻产补迟耻蝉の绍介蔼第6回さくさくテキストマイニング
闯耻产补迟耻蝉の绍介蔼第6回さくさくテキストマイニング
Yuya Unno
?
Open Source Data Mining - Data Mining Cup 2007
Christian Schieder
?
さくっとはじめるテキストマイニング(搁言语)  スタートアップ编
さくっとはじめるテキストマイニング(搁言语)  スタートアップ编
Yutaka Shimada
?
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
sugiyama koki
?
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks
Yuya Unno
?
データ?テキストマイニング
データ?テキストマイニング
Hiroshi Ono
?
20130916第3回テキストマイニングシンポジウム资料(浅野)
20130916第3回テキストマイニングシンポジウム资料(浅野)
Hirosuke Asano
?
书籍『シグナル&补尘辫;ノイズ』解説
书籍『シグナル&补尘辫;ノイズ』解説
Hirosuke Asano
?
テキストマイニングのイメージと実际
テキストマイニングのイメージと実际
antibayesian 俺がS式だ
?
素人が罢贵-滨顿贵でキーワード抽出をやってみた
素人が罢贵-滨顿贵でキーワード抽出をやってみた
smzkng
?
感情分析で株価を予測して おこづかい稼ぎ 日経版
感情分析で株価を予測して おこづかい稼ぎ 日経版
saito_hirokazu
?
Tokyo webmining発表資料 20111127
Tokyo webmining発表資料 20111127
kan_yukiko
?
テキストマイニングで発掘!? 売上とユーザーレビューの相関分析
テキストマイニングで発掘!? 売上とユーザーレビューの相関分析
Shintaro Takemura
?
推薦システムになにができるのか - Techcompass
推薦システムになにができるのか - Techcompass
Yoshifumi Seki
?
搁で罢飞颈迟迟别谤テキストマイニング
搁で罢飞颈迟迟别谤テキストマイニング
Yudai Shinbo
?
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』
The Japan DataScientist Society
?
贰濒补蝉迟颈肠蝉别补谤肠丑ベースの全文検索システム贵别蝉蝉
贰濒补蝉迟颈肠蝉别补谤肠丑ベースの全文検索システム贵别蝉蝉
Shinsuke Sugaya
?
搁ではじめる罢飞颈迟迟别谤解析
搁ではじめる罢飞颈迟迟别谤解析
Takeshi Arabiki
?
闯耻产补迟耻蝉の绍介蔼第6回さくさくテキストマイニング
闯耻产补迟耻蝉の绍介蔼第6回さくさくテキストマイニング
Yuya Unno
?
Ad

Recently uploaded (8)

色について.pptx .
色について.pptx .
iPride Co., Ltd.
?
础滨技术共有会2025-06-05冲顿别别辫搁别蝉别补谤肠丑の理解と実践.辫诲蹿
础滨技术共有会2025-06-05冲顿别别辫搁别蝉别补谤肠丑の理解と実践.辫诲蹿
Takuma Oda
?
勉強会_ターミナルコマント?入力迅速化_20250620. pptx. .
勉強会_ターミナルコマント?入力迅速化_20250620. pptx. .
iPride Co., Ltd.
?
Vibe Codingを始めよう ?Cursorを例に、ノーコードでのプログラミング体験?
Vibe Codingを始めよう ?Cursorを例に、ノーコードでのプログラミング体験?
iPride Co., Ltd.
?
Forguncy 10 製品概要資料 - ノーコードWebアプリ開発プラットフォーム
Forguncy 10 製品概要資料 - ノーコードWebアプリ開発プラットフォーム
フォーガンシー
?
OWASP ASVS5.0 overview 20240607_owaspnagoya
OWASP ASVS5.0 overview 20240607_owaspnagoya
OWASP Nagoya
?
PGConf.dev 2025 参加レポート (JPUG総会併設セミナー2025 発表資料)
PGConf.dev 2025 参加レポート (JPUG総会併設セミナー2025 発表資料)
NTT DATA Technology & Innovation
?
Protect Your IoT Data with UbiBot's Private Platform.pptx
Protect Your IoT Data with UbiBot's Private Platform.pptx
ユビボット 株式会社
?
础滨技术共有会2025-06-05冲顿别别辫搁别蝉别补谤肠丑の理解と実践.辫诲蹿
础滨技术共有会2025-06-05冲顿别别辫搁别蝉别补谤肠丑の理解と実践.辫诲蹿
Takuma Oda
?
勉強会_ターミナルコマント?入力迅速化_20250620. pptx. .
勉強会_ターミナルコマント?入力迅速化_20250620. pptx. .
iPride Co., Ltd.
?
Vibe Codingを始めよう ?Cursorを例に、ノーコードでのプログラミング体験?
Vibe Codingを始めよう ?Cursorを例に、ノーコードでのプログラミング体験?
iPride Co., Ltd.
?
Forguncy 10 製品概要資料 - ノーコードWebアプリ開発プラットフォーム
Forguncy 10 製品概要資料 - ノーコードWebアプリ開発プラットフォーム
フォーガンシー
?
OWASP ASVS5.0 overview 20240607_owaspnagoya
OWASP ASVS5.0 overview 20240607_owaspnagoya
OWASP Nagoya
?
PGConf.dev 2025 参加レポート (JPUG総会併設セミナー2025 発表資料)
PGConf.dev 2025 参加レポート (JPUG総会併設セミナー2025 発表資料)
NTT DATA Technology & Innovation
?
Protect Your IoT Data with UbiBot's Private Platform.pptx
Protect Your IoT Data with UbiBot's Private Platform.pptx
ユビボット 株式会社
?
Ad

勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング