狠狠撸

狠狠撸Share a Scribd company logo
Gensim
August 9, 2014
1 / 11
次元削減
文書-単語行列が巨大な疎行列になって手に負えない!
「ねこ」と「にゃんこ」(同義語) を同一視したい!
人名の「田中」と地名の「田中」(多義語) を別物だとみなしたい!
? 次元削減 (dimensionality reduction) を利用 (e.g. クラスタリング、ト
ピックモデル)
2 / 11
Gensim
Gensim
トピックモデル (pLSA, LDA) や deep learning(word2vec) を簡単に使えるラ
イブラリ [2][3]
公式サイトの tutorial は若干分かりにくいです
使い方は [4] や [1] に詳しい
Figure: Mentioned by the author:)
3 / 11
Gensim
Gensim
公式サイトの tutorial は若干分かりにくいです
使い方は [4] や [1] に詳しい
..........
..........
..........
..........
..........
..........
System
and human
system
documents
..........
..........
..........
..........
..........
..........
['system',
'and'
'human']
texts
形态素解析
{'and': 19,
'minors': 37, ...}
dic = corpora.Dictonary()
..........
..........
..........
..........
..........
..........
[(10, 2),
(19, 1),
(3, 1), ...]
corpus
dic.doc2bow()
辞書とtf値を対応付け
dic.save()
dict.dic
MmCorpus
.serialize()
corpus.mm
tf?idf
LSALSA
LDA
HDP
RP
log
entropy
word
2vec
models
model
.save()
lda.model
dic.load() MmCorpus()
model
.load()
similarities
文書の類似性判定
lda.model
topic
extraction
model
.show_topics()
文書のトピック抽出
Figure: Gensim を使った処理の一例
4 / 11
Gensim
Step0. documents
元の文書をリスト型で準備
1 # 元の文書
2 documents = [
3 ”Human machine interface for lab abc computer applications”,
4 ”A survey of user opinion of computer system response time”,
5 ”The EPS user interface management system”,
6 ”System and human system engineering testing of EPS”,
7 ”Relation of user perceived response time to error measurement”,
8 ”The generation of random binary unordered trees”,
9 ”The intersection graph of paths in trees”,
10 ”Graph minors IV Widths of trees and well quasi ordering”,
11 ”Graph minors A survey”]
5 / 11
Gensim
Step1. 形态素解析
1 def parse(doc):
2 # 日本語なら形态素解析
3 # stopwordを除去する
4 stoplist = set(’for a of the and to in’.split())
5 text = [word for word in doc.lower().split() if word not in stoplist]
6 return text
7
8 texts = [[w for w in parse(doc)] for doc in documents]
9 print texts
10 ’’’ [
11 [’human’, ’machine’, ’interface’, ...],
12 [’a’, ’survey’, ’of’, ’user’, ...],
13 ...] ’’’
6 / 11
Gensim
Step2. 辞書を作成
1 dic = corpora.Dictionary(texts)
2 # 巨大なデータに対しては時間がかかるので保存。
3 dic.save(’dict.dic’)
4 # dic.load(’dict.dic’) で読み込み。
5
6 print dic.token2id
7 # {’and’: 19, ’minors’: 37, ’generation’: 28, ...}
8 print dic[19]
9 # ’and’が出力される。
7 / 11
Gensim
Step3. コーパスを作成
1 # 作成した辞書を使って、文書を変換
2 new_doc = ”Human computer interaction”
3 new_vec = dic.doc2bow(parse(new_doc))
4 print new_vec
5 # ”interaction”は辞書にないので無視される
6 # [(2, 1), (4, 1)]
7
8 # 同様にして、最初の文書集合に対してcorpus(文書?単語行列)を作成
9 # ここでは、単純なtf値からなる文書?単語行列を作成
10 corpus = [dic.doc2bow(text) for text in texts]
11 print corpus
12 # 巨大なデータに対しては時間がかかるので保存。
13 # Matrix Market形式で corpusを保存。他の形式でも良い。
14 corpora.MmCorpus.serialize(’corpus.mm’, corpus)
15 # 保存した corpusを読み込むとき
16 # corpus = corpora.MmCorpus(’corpus.mm’)
17
18 # 作成したコーパスで類似度を測る
19 index = similarities.docsim.SparseMatrixSimilarity(corpus, num_features=len(dic))
20 # クエリを特徴ベクトルで表現
21 query = [(0,1),(4,1)]
22 # queryと類似するもの上位 10件を出力
23 print sorted(enumerate(index[query]), reverse=True, key=lambda x:x[1])[:10]
8 / 11
Gensim
Step4. モデルを適用 (tf?idf)
1 m = models.T?dfModel(corpus)
2 # tf?idf値からなる文書?単語行列を作成
3 # m[corpus[0]] で 0番目の文書の特徴ベクトルになる
4 corpus = m[corpus]
5 # m[corpus]は再びコーパスとして使用可能
Step5. トピックモデルを適用
1 # topic数は 200?500くらいが普通?
2 m = models.LdaModel(corpus, id2word = dic, num_topics = 3)
3 # 巨大なデータに対しては時間がかかるので保存。
4 m.save(’lda.model’)
5 # m[corpus[i]] に含まれる tupleは、文書iが topic jに属する確率 P(t_j | d_i) を表す
6
7 # 得られた topicとその成分を表示
8 for n in range(0, m.num_topics):
9 # formatted=Trueとすると、線型モデルで表示
10 print m.show_topics(formatted=False)
9 / 11
Gensim
出力されたトピック
topic1 = 0.097 ? system + 0.068 ? eps + 0.055 ? human + 0.054 ? interface
+ 0.040 ? trees + 0.040 ? user + 0.039 ? engineering
+ 0.039 ? management + 0.039 ? testing + 0.039 ? binary
topic2 = 0.077 ? graph + 0.074 ? trees + 0.046 ? minors + 0.043 ? response
+ 0.043 ? ordering + 0.043 ? well + 0.043 ? iv + 0.043 ? quasi
+ 0.043 ? widths + 0.042 ? user
topic3 = 0.081 ? computer + 0.060 ? user + 0.060 ? system + 0.060 ? survey
+ 0.059 ? time + 0.058 ? response + 0.058 ? opinion + 0.038 ? lab
+ 0.037 ? abc + 0.037 ? machine
10 / 11
Reference I
Python 用のトピックモデルのライブラリ gensim の使い方 (主に日本語のテキストの読み込み)
- 唯物是真 @Scaled_Wurm. url:
http://sucrose.hatenablog.com/entry/2013/10/29/001041.
Radim ?eh??ek. gensim: Topic modelling for humans. url:
http://radimrehurek.com/gensim.
Radim ?eh??ek. “Software Framework for Topic Modelling with Large Corpora”. In:
Proceedings of the LREC 2010 Workshop on New Challenges for NLP Frameworks. 2010,
pp. 45–50. url: http://www.muni.cz/research/publications/884893.
高橋 侑久. LSI や LDA を手軽に試せる Gensim を使った自然言語処理入門 - SELECT *
FROM life; url: http://yuku-tech.hatenablog.com/entry/20110623/1308810518.
11 / 11

More Related Content

What's hot (20)

ノンパラベイズ入门の入门
ノンパラベイズ入门の入门ノンパラベイズ入门の入门
ノンパラベイズ入门の入门
Shuyo Nakatani
?
論文の書き方入門 2017
論文の書き方入門 2017論文の書き方入門 2017
論文の書き方入門 2017
Hironori Washizaki
?
オブジェクト指向プログラミングの现在?过去?未来
オブジェクト指向プログラミングの现在?过去?未来オブジェクト指向プログラミングの现在?过去?未来
オブジェクト指向プログラミングの现在?过去?未来
増田 亨
?
闯补肠肠补谤诲係数の计算式と特徴(1)
闯补肠肠补谤诲係数の计算式と特徴(1)闯补肠肠补谤诲係数の计算式と特徴(1)
闯补肠肠补谤诲係数の计算式と特徴(1)
khcoder
?
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
nocchi_airport
?
机械学习モデルフォーマットの话:さようなら笔惭惭尝、こんにちは笔贵础
机械学习モデルフォーマットの话:さようなら笔惭惭尝、こんにちは笔贵础机械学习モデルフォーマットの话:さようなら笔惭惭尝、こんにちは笔贵础
机械学习モデルフォーマットの话:さようなら笔惭惭尝、こんにちは笔贵础
Shohei Hido
?
辫测尘肠と辫测蝉迟补苍でベイズ推定してみた话
辫测尘肠と辫测蝉迟补苍でベイズ推定してみた话辫测尘肠と辫测蝉迟补苍でベイズ推定してみた话
辫测尘肠と辫测蝉迟补苍でベイズ推定してみた话
Classi.corp
?
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
トピックモデルの評価指標 Coherence 研究まとめ #トピ本トピックモデルの評価指標 Coherence 研究まとめ #トピ本
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
hoxo_m
?
数学で解き明かす深层学习の原理
数学で解き明かす深层学习の原理数学で解き明かす深层学习の原理
数学で解き明かす深层学习の原理
Taiji Suzuki
?
Sparse estimation tutorial 2014
Sparse estimation tutorial 2014Sparse estimation tutorial 2014
Sparse estimation tutorial 2014
Taiji Suzuki
?
Supervised PCAとその周辺
Supervised PCAとその周辺Supervised PCAとその周辺
Supervised PCAとその周辺
Daisuke Yoneoka
?
ナレッジグラフ入门
ナレッジグラフ入门ナレッジグラフ入门
ナレッジグラフ入门
KnowledgeGraph
?
搁によるやさしい统计学第20章「検定力分析によるサンプルサイズの决定」
搁によるやさしい统计学第20章「検定力分析によるサンプルサイズの决定」搁によるやさしい统计学第20章「検定力分析によるサンプルサイズの决定」
搁によるやさしい统计学第20章「検定力分析によるサンプルサイズの决定」
Takashi J OZAKI
?
叠贰搁罢入门
叠贰搁罢入门叠贰搁罢入门
叠贰搁罢入门
Ken'ichi Matsui
?
IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習
Preferred Networks
?
トピックモデルの基础と応用
トピックモデルの基础と応用トピックモデルの基础と応用
トピックモデルの基础と応用
Tomonari Masada
?
正準相関分析
正準相関分析正準相関分析
正準相関分析
Akisato Kimura
?
NLP2019 松田寛 - GiNZA
NLP2019 松田寛 - GiNZANLP2019 松田寛 - GiNZA
NLP2019 松田寛 - GiNZA
Megagon Labs
?
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
Deep Learning JP
?
画像処理応用
画像処理応用画像処理応用
画像処理応用
大貴 末廣
?
ノンパラベイズ入门の入门
ノンパラベイズ入门の入门ノンパラベイズ入门の入门
ノンパラベイズ入门の入门
Shuyo Nakatani
?
オブジェクト指向プログラミングの现在?过去?未来
オブジェクト指向プログラミングの现在?过去?未来オブジェクト指向プログラミングの现在?过去?未来
オブジェクト指向プログラミングの现在?过去?未来
増田 亨
?
闯补肠肠补谤诲係数の计算式と特徴(1)
闯补肠肠补谤诲係数の计算式と特徴(1)闯补肠肠补谤诲係数の计算式と特徴(1)
闯补肠肠补谤诲係数の计算式と特徴(1)
khcoder
?
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
nocchi_airport
?
机械学习モデルフォーマットの话:さようなら笔惭惭尝、こんにちは笔贵础
机械学习モデルフォーマットの话:さようなら笔惭惭尝、こんにちは笔贵础机械学习モデルフォーマットの话:さようなら笔惭惭尝、こんにちは笔贵础
机械学习モデルフォーマットの话:さようなら笔惭惭尝、こんにちは笔贵础
Shohei Hido
?
辫测尘肠と辫测蝉迟补苍でベイズ推定してみた话
辫测尘肠と辫测蝉迟补苍でベイズ推定してみた话辫测尘肠と辫测蝉迟补苍でベイズ推定してみた话
辫测尘肠と辫测蝉迟补苍でベイズ推定してみた话
Classi.corp
?
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
トピックモデルの評価指標 Coherence 研究まとめ #トピ本トピックモデルの評価指標 Coherence 研究まとめ #トピ本
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
hoxo_m
?
数学で解き明かす深层学习の原理
数学で解き明かす深层学习の原理数学で解き明かす深层学习の原理
数学で解き明かす深层学习の原理
Taiji Suzuki
?
Sparse estimation tutorial 2014
Sparse estimation tutorial 2014Sparse estimation tutorial 2014
Sparse estimation tutorial 2014
Taiji Suzuki
?
Supervised PCAとその周辺
Supervised PCAとその周辺Supervised PCAとその周辺
Supervised PCAとその周辺
Daisuke Yoneoka
?
ナレッジグラフ入门
ナレッジグラフ入门ナレッジグラフ入门
ナレッジグラフ入门
KnowledgeGraph
?
搁によるやさしい统计学第20章「検定力分析によるサンプルサイズの决定」
搁によるやさしい统计学第20章「検定力分析によるサンプルサイズの决定」搁によるやさしい统计学第20章「検定力分析によるサンプルサイズの决定」
搁によるやさしい统计学第20章「検定力分析によるサンプルサイズの决定」
Takashi J OZAKI
?
IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習
Preferred Networks
?
トピックモデルの基础と応用
トピックモデルの基础と応用トピックモデルの基础と応用
トピックモデルの基础と応用
Tomonari Masada
?
NLP2019 松田寛 - GiNZA
NLP2019 松田寛 - GiNZANLP2019 松田寛 - GiNZA
NLP2019 松田寛 - GiNZA
Megagon Labs
?
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
Deep Learning JP
?

Viewers also liked (20)

10分でわかる笔测迟丑辞苍の开発环境
10分でわかる笔测迟丑辞苍の开発环境10分でわかる笔测迟丑辞苍の开発环境
10分でわかる笔测迟丑辞苍の开発环境
Hisao Soyama
?
「Python言語」はじめの一歩 / First step of Python
「Python言語」はじめの一歩 / First step of Python「Python言語」はじめの一歩 / First step of Python
「Python言語」はじめの一歩 / First step of Python
Takanori Suzuki
?
辫测迟丑辞苍-迟飞颈迟迟别谤を用いた罢飞颈迟迟别谤データ収集
辫测迟丑辞苍-迟飞颈迟迟别谤を用いた罢飞颈迟迟别谤データ収集辫测迟丑辞苍-迟飞颈迟迟别谤を用いた罢飞颈迟迟别谤データ収集
辫测迟丑辞苍-迟飞颈迟迟别谤を用いた罢飞颈迟迟别谤データ収集
Hikaru Takemura
?
笔测迟丑辞苍と搁によるテ?ータ分析环境の构筑と机械学习によるテ?ータ认识
笔测迟丑辞苍と搁によるテ?ータ分析环境の构筑と机械学习によるテ?ータ认识笔测迟丑辞苍と搁によるテ?ータ分析环境の构筑と机械学习によるテ?ータ认识
笔测迟丑辞苍と搁によるテ?ータ分析环境の构筑と机械学习によるテ?ータ认识
Katsuhiro Morishita
?
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp
Shinichi Nakagawa
?
笔测迟丑辞苍による奥别产スクレイピング入门
笔测迟丑辞苍による奥别产スクレイピング入门笔测迟丑辞苍による奥别产スクレイピング入门
笔测迟丑辞苍による奥别产スクレイピング入门
Hironori Sekine
?
Python 機械学習プログラミング データ分析ライブラリー解説編
Python 機械学習プログラミング データ分析ライブラリー解説編Python 機械学習プログラミング データ分析ライブラリー解説編
Python 機械学習プログラミング データ分析ライブラリー解説編
Etsuji Nakai
?
Python東海Vol.5 IPythonをマスターしよう
Python東海Vol.5 IPythonをマスターしようPython東海Vol.5 IPythonをマスターしよう
Python東海Vol.5 IPythonをマスターしよう
Hiroshi Funai
?
搁と笔测迟丑辞苍によるデータ解析入门
搁と笔测迟丑辞苍によるデータ解析入门搁と笔测迟丑辞苍によるデータ解析入门
搁と笔测迟丑辞苍によるデータ解析入门
Atsushi Hayakawa
?
笔测迟丑辞苍で简単ネットワーク分析
笔测迟丑辞苍で简単ネットワーク分析笔测迟丑辞苍で简単ネットワーク分析
笔测迟丑辞苍で简単ネットワーク分析
antibayesian 俺がS式だ
?
Scikit learnで学ぶ機械学習入門
Scikit learnで学ぶ機械学習入門Scikit learnで学ぶ機械学習入門
Scikit learnで学ぶ機械学習入門
Takami Sato
?
蝉肠颈办颈迟-濒别补谤苍を用いた机械学习チュートリアル
蝉肠颈办颈迟-濒别补谤苍を用いた机械学习チュートリアル蝉肠颈办颈迟-濒别补谤苍を用いた机械学习チュートリアル
蝉肠颈办颈迟-濒别补谤苍を用いた机械学习チュートリアル
敦志 金谷
?
Python入門 : 4日間コース社内トレーニング
Python入門 : 4日間コース社内トレーニングPython入門 : 4日間コース社内トレーニング
Python入門 : 4日間コース社内トレーニング
Yuichi Ito
?
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
hoxo_m
?
Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門
Tatsuya Tojima
?
コミュニケーション
コミュニケーションコミュニケーション
コミュニケーション
saireya _
?
メディア?リテラシー実习
メディア?リテラシー実习メディア?リテラシー実习
メディア?リテラシー実习
saireya _
?
着作権
着作権着作権
着作権
saireya _
?
叠础顿鲍滨からユニバーサルデザインへ展开するデザイン教育実践
叠础顿鲍滨からユニバーサルデザインへ展开するデザイン教育実践叠础顿鲍滨からユニバーサルデザインへ展开するデザイン教育実践
叠础顿鲍滨からユニバーサルデザインへ展开するデザイン教育実践
saireya _
?
メディア?リテラシー
メディア?リテラシーメディア?リテラシー
メディア?リテラシー
saireya _
?
10分でわかる笔测迟丑辞苍の开発环境
10分でわかる笔测迟丑辞苍の开発环境10分でわかる笔测迟丑辞苍の开発环境
10分でわかる笔测迟丑辞苍の开発环境
Hisao Soyama
?
「Python言語」はじめの一歩 / First step of Python
「Python言語」はじめの一歩 / First step of Python「Python言語」はじめの一歩 / First step of Python
「Python言語」はじめの一歩 / First step of Python
Takanori Suzuki
?
辫测迟丑辞苍-迟飞颈迟迟别谤を用いた罢飞颈迟迟别谤データ収集
辫测迟丑辞苍-迟飞颈迟迟别谤を用いた罢飞颈迟迟别谤データ収集辫测迟丑辞苍-迟飞颈迟迟别谤を用いた罢飞颈迟迟别谤データ収集
辫测迟丑辞苍-迟飞颈迟迟别谤を用いた罢飞颈迟迟别谤データ収集
Hikaru Takemura
?
笔测迟丑辞苍と搁によるテ?ータ分析环境の构筑と机械学习によるテ?ータ认识
笔测迟丑辞苍と搁によるテ?ータ分析环境の构筑と机械学习によるテ?ータ认识笔测迟丑辞苍と搁によるテ?ータ分析环境の构筑と机械学习によるテ?ータ认识
笔测迟丑辞苍と搁によるテ?ータ分析环境の构筑と机械学习によるテ?ータ认识
Katsuhiro Morishita
?
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp
Shinichi Nakagawa
?
笔测迟丑辞苍による奥别产スクレイピング入门
笔测迟丑辞苍による奥别产スクレイピング入门笔测迟丑辞苍による奥别产スクレイピング入门
笔测迟丑辞苍による奥别产スクレイピング入门
Hironori Sekine
?
Python 機械学習プログラミング データ分析ライブラリー解説編
Python 機械学習プログラミング データ分析ライブラリー解説編Python 機械学習プログラミング データ分析ライブラリー解説編
Python 機械学習プログラミング データ分析ライブラリー解説編
Etsuji Nakai
?
Python東海Vol.5 IPythonをマスターしよう
Python東海Vol.5 IPythonをマスターしようPython東海Vol.5 IPythonをマスターしよう
Python東海Vol.5 IPythonをマスターしよう
Hiroshi Funai
?
搁と笔测迟丑辞苍によるデータ解析入门
搁と笔测迟丑辞苍によるデータ解析入门搁と笔测迟丑辞苍によるデータ解析入门
搁と笔测迟丑辞苍によるデータ解析入门
Atsushi Hayakawa
?
笔测迟丑辞苍で简単ネットワーク分析
笔测迟丑辞苍で简単ネットワーク分析笔测迟丑辞苍で简単ネットワーク分析
笔测迟丑辞苍で简単ネットワーク分析
antibayesian 俺がS式だ
?
Scikit learnで学ぶ機械学習入門
Scikit learnで学ぶ機械学習入門Scikit learnで学ぶ機械学習入門
Scikit learnで学ぶ機械学習入門
Takami Sato
?
蝉肠颈办颈迟-濒别补谤苍を用いた机械学习チュートリアル
蝉肠颈办颈迟-濒别补谤苍を用いた机械学习チュートリアル蝉肠颈办颈迟-濒别补谤苍を用いた机械学习チュートリアル
蝉肠颈办颈迟-濒别补谤苍を用いた机械学习チュートリアル
敦志 金谷
?
Python入門 : 4日間コース社内トレーニング
Python入門 : 4日間コース社内トレーニングPython入門 : 4日間コース社内トレーニング
Python入門 : 4日間コース社内トレーニング
Yuichi Ito
?
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
hoxo_m
?
Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門
Tatsuya Tojima
?
コミュニケーション
コミュニケーションコミュニケーション
コミュニケーション
saireya _
?
メディア?リテラシー実习
メディア?リテラシー実习メディア?リテラシー実习
メディア?リテラシー実习
saireya _
?
叠础顿鲍滨からユニバーサルデザインへ展开するデザイン教育実践
叠础顿鲍滨からユニバーサルデザインへ展开するデザイン教育実践叠础顿鲍滨からユニバーサルデザインへ展开するデザイン教育実践
叠础顿鲍滨からユニバーサルデザインへ展开するデザイン教育実践
saireya _
?
メディア?リテラシー
メディア?リテラシーメディア?リテラシー
メディア?リテラシー
saireya _
?

Similar to Gensim (20)

初心者讲习会资料(翱蝉补办补.搁#7)
初心者讲习会资料(翱蝉补办补.搁#7)初心者讲习会资料(翱蝉补办补.搁#7)
初心者讲习会资料(翱蝉补办补.搁#7)
Masahiro Hayashi
?
Lisp batton - Common LISP
Lisp batton - Common LISPLisp batton - Common LISP
Lisp batton - Common LISP
Masaomi CHIBA
?
【C++BUILDER STARTER チュートリアルシリーズ】シーズン2 C++Builderの部 第6回 ?文字列とオブジェクト?
【C++BUILDER STARTER チュートリアルシリーズ】シーズン2 C++Builderの部 第6回 ?文字列とオブジェクト?【C++BUILDER STARTER チュートリアルシリーズ】シーズン2 C++Builderの部 第6回 ?文字列とオブジェクト?
【C++BUILDER STARTER チュートリアルシリーズ】シーズン2 C++Builderの部 第6回 ?文字列とオブジェクト?
和弘 井之上
?
やや関数型を意识した风贰濒颈虫颈谤/笔丑辞别苍颈虫ご绍介
やや関数型を意识した风贰濒颈虫颈谤/笔丑辞别苍颈虫ご绍介やや関数型を意识した风贰濒颈虫颈谤/笔丑辞别苍颈虫ご绍介
やや関数型を意识した风贰濒颈虫颈谤/笔丑辞别苍颈虫ご绍介
fukuoka.ex
?
初心者讲习会资料(翱蝉补办补.搁#5)
初心者讲习会资料(翱蝉补办补.搁#5)初心者讲习会资料(翱蝉补办补.搁#5)
初心者讲习会资料(翱蝉补办补.搁#5)
Masahiro Hayashi
?
现実(えくせる)と戦う话
现実(えくせる)と戦う话现実(えくせる)と戦う话
现実(えくせる)と戦う话
bleis tift
?
贰濒颈虫颈谤入门「第1回:パターンマッチ&パイプで闯厂翱狈パースアプリをサクっと书いてみる」
贰濒颈虫颈谤入门「第1回:パターンマッチ&パイプで闯厂翱狈パースアプリをサクっと书いてみる」贰濒颈虫颈谤入门「第1回:パターンマッチ&パイプで闯厂翱狈パースアプリをサクっと书いてみる」
贰濒颈虫颈谤入门「第1回:パターンマッチ&パイプで闯厂翱狈パースアプリをサクっと书いてみる」
fukuoka.ex
?
第1回勉强会スライド
第1回勉强会スライド第1回勉强会スライド
第1回勉强会スライド
koturn 0;
?
F#によるFunctional Programming入門
F#によるFunctional Programming入門F#によるFunctional Programming入門
F#によるFunctional Programming入門
bleis tift
?
第2回品川搁别诲尘颈苍别勉强会(日本语全文検索)
第2回品川搁别诲尘颈苍别勉强会(日本语全文検索)第2回品川搁别诲尘颈苍别勉强会(日本语全文検索)
第2回品川搁别诲尘颈苍别勉强会(日本语全文検索)
Masanori Machii
?
Essential Scala 第5章 シーケンス処理
Essential Scala 第5章 シーケンス処理Essential Scala 第5章 シーケンス処理
Essential Scala 第5章 シーケンス処理
Takuya Tsuchida
?
本当にあった怖い話し Db編
本当にあった怖い話し Db編本当にあった怖い話し Db編
本当にあった怖い話し Db編
Oda Shinsuke
?
Ruby on Rails 入門
Ruby on Rails 入門Ruby on Rails 入門
Ruby on Rails 入門
Yasuko Ohba
?
言语処理系入门3
言语処理系入门3言语処理系入门3
言语処理系入门3
Kenta Hattori
?
DSLを学ぶ - 設定式によるルールの表現を試す -
DSLを学ぶ - 設定式によるルールの表現を試す - DSLを学ぶ - 設定式によるルールの表現を試す -
DSLを学ぶ - 設定式によるルールの表現を試す -
kumamidori
?
知って得する标準関数の使い方
知って得する标準関数の使い方知って得する标準関数の使い方
知って得する标準関数の使い方
Soudai Sone
?
Lisp Tutorial for Pythonista : Day 3
Lisp Tutorial for Pythonista : Day 3Lisp Tutorial for Pythonista : Day 3
Lisp Tutorial for Pythonista : Day 3
Ransui Iso
?
Hello Dark-Side C# (Part. 1)
Hello Dark-Side C# (Part. 1)Hello Dark-Side C# (Part. 1)
Hello Dark-Side C# (Part. 1)
Yuto Takei
?
BPStudy32 CouchDB 再入門
BPStudy32 CouchDB 再入門BPStudy32 CouchDB 再入門
BPStudy32 CouchDB 再入門
Yohei Sasaki
?
プログラムの処方笺~健康なコードと病んだコード
プログラムの処方笺~健康なコードと病んだコードプログラムの処方笺~健康なコードと病んだコード
プログラムの処方笺~健康なコードと病んだコード
Shigenori Sagawa
?
初心者讲习会资料(翱蝉补办补.搁#7)
初心者讲习会资料(翱蝉补办补.搁#7)初心者讲习会资料(翱蝉补办补.搁#7)
初心者讲习会资料(翱蝉补办补.搁#7)
Masahiro Hayashi
?
Lisp batton - Common LISP
Lisp batton - Common LISPLisp batton - Common LISP
Lisp batton - Common LISP
Masaomi CHIBA
?
【C++BUILDER STARTER チュートリアルシリーズ】シーズン2 C++Builderの部 第6回 ?文字列とオブジェクト?
【C++BUILDER STARTER チュートリアルシリーズ】シーズン2 C++Builderの部 第6回 ?文字列とオブジェクト?【C++BUILDER STARTER チュートリアルシリーズ】シーズン2 C++Builderの部 第6回 ?文字列とオブジェクト?
【C++BUILDER STARTER チュートリアルシリーズ】シーズン2 C++Builderの部 第6回 ?文字列とオブジェクト?
和弘 井之上
?
やや関数型を意识した风贰濒颈虫颈谤/笔丑辞别苍颈虫ご绍介
やや関数型を意识した风贰濒颈虫颈谤/笔丑辞别苍颈虫ご绍介やや関数型を意识した风贰濒颈虫颈谤/笔丑辞别苍颈虫ご绍介
やや関数型を意识した风贰濒颈虫颈谤/笔丑辞别苍颈虫ご绍介
fukuoka.ex
?
初心者讲习会资料(翱蝉补办补.搁#5)
初心者讲习会资料(翱蝉补办补.搁#5)初心者讲习会资料(翱蝉补办补.搁#5)
初心者讲习会资料(翱蝉补办补.搁#5)
Masahiro Hayashi
?
现実(えくせる)と戦う话
现実(えくせる)と戦う话现実(えくせる)と戦う话
现実(えくせる)と戦う话
bleis tift
?
贰濒颈虫颈谤入门「第1回:パターンマッチ&パイプで闯厂翱狈パースアプリをサクっと书いてみる」
贰濒颈虫颈谤入门「第1回:パターンマッチ&パイプで闯厂翱狈パースアプリをサクっと书いてみる」贰濒颈虫颈谤入门「第1回:パターンマッチ&パイプで闯厂翱狈パースアプリをサクっと书いてみる」
贰濒颈虫颈谤入门「第1回:パターンマッチ&パイプで闯厂翱狈パースアプリをサクっと书いてみる」
fukuoka.ex
?
第1回勉强会スライド
第1回勉强会スライド第1回勉强会スライド
第1回勉强会スライド
koturn 0;
?
F#によるFunctional Programming入門
F#によるFunctional Programming入門F#によるFunctional Programming入門
F#によるFunctional Programming入門
bleis tift
?
第2回品川搁别诲尘颈苍别勉强会(日本语全文検索)
第2回品川搁别诲尘颈苍别勉强会(日本语全文検索)第2回品川搁别诲尘颈苍别勉强会(日本语全文検索)
第2回品川搁别诲尘颈苍别勉强会(日本语全文検索)
Masanori Machii
?
Essential Scala 第5章 シーケンス処理
Essential Scala 第5章 シーケンス処理Essential Scala 第5章 シーケンス処理
Essential Scala 第5章 シーケンス処理
Takuya Tsuchida
?
本当にあった怖い話し Db編
本当にあった怖い話し Db編本当にあった怖い話し Db編
本当にあった怖い話し Db編
Oda Shinsuke
?
Ruby on Rails 入門
Ruby on Rails 入門Ruby on Rails 入門
Ruby on Rails 入門
Yasuko Ohba
?
DSLを学ぶ - 設定式によるルールの表現を試す -
DSLを学ぶ - 設定式によるルールの表現を試す - DSLを学ぶ - 設定式によるルールの表現を試す -
DSLを学ぶ - 設定式によるルールの表現を試す -
kumamidori
?
知って得する标準関数の使い方
知って得する标準関数の使い方知って得する标準関数の使い方
知って得する标準関数の使い方
Soudai Sone
?
Lisp Tutorial for Pythonista : Day 3
Lisp Tutorial for Pythonista : Day 3Lisp Tutorial for Pythonista : Day 3
Lisp Tutorial for Pythonista : Day 3
Ransui Iso
?
Hello Dark-Side C# (Part. 1)
Hello Dark-Side C# (Part. 1)Hello Dark-Side C# (Part. 1)
Hello Dark-Side C# (Part. 1)
Yuto Takei
?
BPStudy32 CouchDB 再入門
BPStudy32 CouchDB 再入門BPStudy32 CouchDB 再入門
BPStudy32 CouchDB 再入門
Yohei Sasaki
?
プログラムの処方笺~健康なコードと病んだコード
プログラムの処方笺~健康なコードと病んだコードプログラムの処方笺~健康なコードと病んだコード
プログラムの処方笺~健康なコードと病んだコード
Shigenori Sagawa
?

More from saireya _ (20)

文章作成の基础
文章作成の基础文章作成の基础
文章作成の基础
saireya _
?
Peirceの探究段階論に基づく「情報I, II」の授業設計
Peirceの探究段階論に基づく「情報I, II」の授業設計Peirceの探究段階論に基づく「情報I, II」の授業設計
Peirceの探究段階論に基づく「情報I, II」の授業設計
saireya _
?
Peirceの探究段階論に基づく「情報I, II」における単元間の構造分析
Peirceの探究段階論に基づく「情報I, II」における単元間の構造分析Peirceの探究段階論に基づく「情報I, II」における単元間の構造分析
Peirceの探究段階論に基づく「情報I, II」における単元間の構造分析
saireya _
?
テーマ设定?文献読解
テーマ设定?文献読解テーマ设定?文献読解
テーマ设定?文献読解
saireya _
?
実験レポートの书き方
実験レポートの书き方実験レポートの书き方
実験レポートの书き方
saireya _
?
実験ノートの书き方
実験ノートの书き方実験ノートの书き方
実験ノートの书き方
saireya _
?
コミュニケーション(2020惫别谤)
コミュニケーション(2020惫别谤)コミュニケーション(2020惫别谤)
コミュニケーション(2020惫别谤)
saireya _
?
情报(2020惫别谤)
情报(2020惫别谤)情报(2020惫别谤)
情报(2020惫别谤)
saireya _
?
表现と内容
表现と内容表现と内容
表现と内容
saireya _
?
人间と机械
人间と机械人间と机械
人间と机械
saireya _
?
创発(2020惫别谤)
创発(2020惫别谤)创発(2020惫别谤)
创発(2020惫别谤)
saireya _
?
セキュリティ(2020惫别谤)
セキュリティ(2020惫别谤)セキュリティ(2020惫别谤)
セキュリティ(2020惫别谤)
saireya _
?
介入としての侧面に焦点化したプレゼンテーションの教育実践
介入としての侧面に焦点化したプレゼンテーションの教育実践介入としての侧面に焦点化したプレゼンテーションの教育実践
介入としての侧面に焦点化したプレゼンテーションの教育実践
saireya _
?
社会のイノベーションを志向する情报教育の体系化
社会のイノベーションを志向する情报教育の体系化社会のイノベーションを志向する情报教育の体系化
社会のイノベーションを志向する情报教育の体系化
saireya _
?
社会システム理论に基づく情报教育の教材开発
社会システム理论に基づく情报教育の教材开発社会システム理论に基づく情报教育の教材开発
社会システム理论に基づく情报教育の教材开発
saireya _
?
システム论に基づく情报教育の授业计画と教育実践
システム论に基づく情报教育の授业计画と教育実践システム论に基づく情报教育の授业计画と教育実践
システム论に基づく情报教育の授业计画と教育実践
saireya _
?
プログラミング
プログラミングプログラミング
プログラミング
saireya _
?
コミュニケーション?情报?メディアの统合モデルに基づく教育実践
コミュニケーション?情报?メディアの统合モデルに基づく教育実践コミュニケーション?情报?メディアの统合モデルに基づく教育実践
コミュニケーション?情报?メディアの统合モデルに基づく教育実践
saireya _
?
知的财产
知的财产知的财产
知的财产
saireya _
?
暗号
暗号暗号
暗号
saireya _
?
文章作成の基础
文章作成の基础文章作成の基础
文章作成の基础
saireya _
?
Peirceの探究段階論に基づく「情報I, II」の授業設計
Peirceの探究段階論に基づく「情報I, II」の授業設計Peirceの探究段階論に基づく「情報I, II」の授業設計
Peirceの探究段階論に基づく「情報I, II」の授業設計
saireya _
?
Peirceの探究段階論に基づく「情報I, II」における単元間の構造分析
Peirceの探究段階論に基づく「情報I, II」における単元間の構造分析Peirceの探究段階論に基づく「情報I, II」における単元間の構造分析
Peirceの探究段階論に基づく「情報I, II」における単元間の構造分析
saireya _
?
テーマ设定?文献読解
テーマ设定?文献読解テーマ设定?文献読解
テーマ设定?文献読解
saireya _
?
実験レポートの书き方
実験レポートの书き方実験レポートの书き方
実験レポートの书き方
saireya _
?
実験ノートの书き方
実験ノートの书き方実験ノートの书き方
実験ノートの书き方
saireya _
?
コミュニケーション(2020惫别谤)
コミュニケーション(2020惫别谤)コミュニケーション(2020惫别谤)
コミュニケーション(2020惫别谤)
saireya _
?
情报(2020惫别谤)
情报(2020惫别谤)情报(2020惫别谤)
情报(2020惫别谤)
saireya _
?
表现と内容
表现と内容表现と内容
表现と内容
saireya _
?
人间と机械
人间と机械人间と机械
人间と机械
saireya _
?
创発(2020惫别谤)
创発(2020惫别谤)创発(2020惫别谤)
创発(2020惫别谤)
saireya _
?
セキュリティ(2020惫别谤)
セキュリティ(2020惫别谤)セキュリティ(2020惫别谤)
セキュリティ(2020惫别谤)
saireya _
?
介入としての侧面に焦点化したプレゼンテーションの教育実践
介入としての侧面に焦点化したプレゼンテーションの教育実践介入としての侧面に焦点化したプレゼンテーションの教育実践
介入としての侧面に焦点化したプレゼンテーションの教育実践
saireya _
?
社会のイノベーションを志向する情报教育の体系化
社会のイノベーションを志向する情报教育の体系化社会のイノベーションを志向する情报教育の体系化
社会のイノベーションを志向する情报教育の体系化
saireya _
?
社会システム理论に基づく情报教育の教材开発
社会システム理论に基づく情报教育の教材开発社会システム理论に基づく情报教育の教材开発
社会システム理论に基づく情报教育の教材开発
saireya _
?
システム论に基づく情报教育の授业计画と教育実践
システム论に基づく情报教育の授业计画と教育実践システム论に基づく情报教育の授业计画と教育実践
システム论に基づく情报教育の授业计画と教育実践
saireya _
?
プログラミング
プログラミングプログラミング
プログラミング
saireya _
?
コミュニケーション?情报?メディアの统合モデルに基づく教育実践
コミュニケーション?情报?メディアの统合モデルに基づく教育実践コミュニケーション?情报?メディアの统合モデルに基づく教育実践
コミュニケーション?情报?メディアの统合モデルに基づく教育実践
saireya _
?

Recently uploaded (11)

空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化
空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化
空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化
sugiuralab
?
【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究
【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究
【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究
harmonylab
?
【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究
【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究
【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究
harmonylab
?
2025フードテックWeek大阪展示会 - LoRaWANを使った複数ポイント温度管理 by AVNET玉井部長
2025フードテックWeek大阪展示会 - LoRaWANを使った複数ポイント温度管理 by AVNET玉井部長2025フードテックWeek大阪展示会 - LoRaWANを使った複数ポイント温度管理 by AVNET玉井部長
2025フードテックWeek大阪展示会 - LoRaWANを使った複数ポイント温度管理 by AVNET玉井部長
CRI Japan, Inc.
?
贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025
贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025
贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025
Matsushita Laboratory
?
测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案
测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案
测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案
sugiuralab
?
狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025
狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025
狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025
Matsushita Laboratory
?
ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...
ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...
ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...
Industrial Technology Research Institute (ITRI)(工業技術研究院, 工研院)
?
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
NTT DATA Technology & Innovation
?
第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)
第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)
第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)
Matsushita Laboratory
?
LF Decentralized Trust Tokyo Meetup 3
LF Decentralized Trust Tokyo Meetup 3LF Decentralized Trust Tokyo Meetup 3
LF Decentralized Trust Tokyo Meetup 3
LFDT Tokyo Meetup
?
空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化
空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化
空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化
sugiuralab
?
【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究
【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究
【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究
harmonylab
?
【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究
【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究
【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究
harmonylab
?
2025フードテックWeek大阪展示会 - LoRaWANを使った複数ポイント温度管理 by AVNET玉井部長
2025フードテックWeek大阪展示会 - LoRaWANを使った複数ポイント温度管理 by AVNET玉井部長2025フードテックWeek大阪展示会 - LoRaWANを使った複数ポイント温度管理 by AVNET玉井部長
2025フードテックWeek大阪展示会 - LoRaWANを使った複数ポイント温度管理 by AVNET玉井部長
CRI Japan, Inc.
?
贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025
贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025
贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025
Matsushita Laboratory
?
测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案
测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案
测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案
sugiuralab
?
狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025
狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025
狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025
Matsushita Laboratory
?
ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...
ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...
ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...
Industrial Technology Research Institute (ITRI)(工業技術研究院, 工研院)
?
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
NTT DATA Technology & Innovation
?
第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)
第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)
第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)
Matsushita Laboratory
?
LF Decentralized Trust Tokyo Meetup 3
LF Decentralized Trust Tokyo Meetup 3LF Decentralized Trust Tokyo Meetup 3
LF Decentralized Trust Tokyo Meetup 3
LFDT Tokyo Meetup
?

Gensim

  • 3. Gensim Gensim トピックモデル (pLSA, LDA) や deep learning(word2vec) を簡単に使えるラ イブラリ [2][3] 公式サイトの tutorial は若干分かりにくいです 使い方は [4] や [1] に詳しい Figure: Mentioned by the author:) 3 / 11
  • 4. Gensim Gensim 公式サイトの tutorial は若干分かりにくいです 使い方は [4] や [1] に詳しい .......... .......... .......... .......... .......... .......... System and human system documents .......... .......... .......... .......... .......... .......... ['system', 'and' 'human'] texts 形态素解析 {'and': 19, 'minors': 37, ...} dic = corpora.Dictonary() .......... .......... .......... .......... .......... .......... [(10, 2), (19, 1), (3, 1), ...] corpus dic.doc2bow() 辞書とtf値を対応付け dic.save() dict.dic MmCorpus .serialize() corpus.mm tf?idf LSALSA LDA HDP RP log entropy word 2vec models model .save() lda.model dic.load() MmCorpus() model .load() similarities 文書の類似性判定 lda.model topic extraction model .show_topics() 文書のトピック抽出 Figure: Gensim を使った処理の一例 4 / 11
  • 5. Gensim Step0. documents 元の文書をリスト型で準備 1 # 元の文書 2 documents = [ 3 ”Human machine interface for lab abc computer applications”, 4 ”A survey of user opinion of computer system response time”, 5 ”The EPS user interface management system”, 6 ”System and human system engineering testing of EPS”, 7 ”Relation of user perceived response time to error measurement”, 8 ”The generation of random binary unordered trees”, 9 ”The intersection graph of paths in trees”, 10 ”Graph minors IV Widths of trees and well quasi ordering”, 11 ”Graph minors A survey”] 5 / 11
  • 6. Gensim Step1. 形态素解析 1 def parse(doc): 2 # 日本語なら形态素解析 3 # stopwordを除去する 4 stoplist = set(’for a of the and to in’.split()) 5 text = [word for word in doc.lower().split() if word not in stoplist] 6 return text 7 8 texts = [[w for w in parse(doc)] for doc in documents] 9 print texts 10 ’’’ [ 11 [’human’, ’machine’, ’interface’, ...], 12 [’a’, ’survey’, ’of’, ’user’, ...], 13 ...] ’’’ 6 / 11
  • 7. Gensim Step2. 辞書を作成 1 dic = corpora.Dictionary(texts) 2 # 巨大なデータに対しては時間がかかるので保存。 3 dic.save(’dict.dic’) 4 # dic.load(’dict.dic’) で読み込み。 5 6 print dic.token2id 7 # {’and’: 19, ’minors’: 37, ’generation’: 28, ...} 8 print dic[19] 9 # ’and’が出力される。 7 / 11
  • 8. Gensim Step3. コーパスを作成 1 # 作成した辞書を使って、文書を変換 2 new_doc = ”Human computer interaction” 3 new_vec = dic.doc2bow(parse(new_doc)) 4 print new_vec 5 # ”interaction”は辞書にないので無視される 6 # [(2, 1), (4, 1)] 7 8 # 同様にして、最初の文書集合に対してcorpus(文書?単語行列)を作成 9 # ここでは、単純なtf値からなる文書?単語行列を作成 10 corpus = [dic.doc2bow(text) for text in texts] 11 print corpus 12 # 巨大なデータに対しては時間がかかるので保存。 13 # Matrix Market形式で corpusを保存。他の形式でも良い。 14 corpora.MmCorpus.serialize(’corpus.mm’, corpus) 15 # 保存した corpusを読み込むとき 16 # corpus = corpora.MmCorpus(’corpus.mm’) 17 18 # 作成したコーパスで類似度を測る 19 index = similarities.docsim.SparseMatrixSimilarity(corpus, num_features=len(dic)) 20 # クエリを特徴ベクトルで表現 21 query = [(0,1),(4,1)] 22 # queryと類似するもの上位 10件を出力 23 print sorted(enumerate(index[query]), reverse=True, key=lambda x:x[1])[:10] 8 / 11
  • 9. Gensim Step4. モデルを適用 (tf?idf) 1 m = models.T?dfModel(corpus) 2 # tf?idf値からなる文書?単語行列を作成 3 # m[corpus[0]] で 0番目の文書の特徴ベクトルになる 4 corpus = m[corpus] 5 # m[corpus]は再びコーパスとして使用可能 Step5. トピックモデルを適用 1 # topic数は 200?500くらいが普通? 2 m = models.LdaModel(corpus, id2word = dic, num_topics = 3) 3 # 巨大なデータに対しては時間がかかるので保存。 4 m.save(’lda.model’) 5 # m[corpus[i]] に含まれる tupleは、文書iが topic jに属する確率 P(t_j | d_i) を表す 6 7 # 得られた topicとその成分を表示 8 for n in range(0, m.num_topics): 9 # formatted=Trueとすると、線型モデルで表示 10 print m.show_topics(formatted=False) 9 / 11
  • 10. Gensim 出力されたトピック topic1 = 0.097 ? system + 0.068 ? eps + 0.055 ? human + 0.054 ? interface + 0.040 ? trees + 0.040 ? user + 0.039 ? engineering + 0.039 ? management + 0.039 ? testing + 0.039 ? binary topic2 = 0.077 ? graph + 0.074 ? trees + 0.046 ? minors + 0.043 ? response + 0.043 ? ordering + 0.043 ? well + 0.043 ? iv + 0.043 ? quasi + 0.043 ? widths + 0.042 ? user topic3 = 0.081 ? computer + 0.060 ? user + 0.060 ? system + 0.060 ? survey + 0.059 ? time + 0.058 ? response + 0.058 ? opinion + 0.038 ? lab + 0.037 ? abc + 0.037 ? machine 10 / 11
  • 11. Reference I Python 用のトピックモデルのライブラリ gensim の使い方 (主に日本語のテキストの読み込み) - 唯物是真 @Scaled_Wurm. url: http://sucrose.hatenablog.com/entry/2013/10/29/001041. Radim ?eh??ek. gensim: Topic modelling for humans. url: http://radimrehurek.com/gensim. Radim ?eh??ek. “Software Framework for Topic Modelling with Large Corpora”. In: Proceedings of the LREC 2010 Workshop on New Challenges for NLP Frameworks. 2010, pp. 45–50. url: http://www.muni.cz/research/publications/884893. 高橋 侑久. LSI や LDA を手軽に試せる Gensim を使った自然言語処理入門 - SELECT * FROM life; url: http://yuku-tech.hatenablog.com/entry/20110623/1308810518. 11 / 11