狠狠撸

狠狠撸Share a Scribd company logo
KH Coder チュートリアル

漱石「こころ」を題材に
【スライド版】

1
本チュートリアルの内容
1.
2.
3.
4.
5.

2

KH Coderの準備
プロジェクト作成と前処理
頻出語と共起
それぞれの部(上?中?下)に特徴的な語
コーディングによるコンセプトの抽出
1. KH Coderの準備

3
1.1 Windows版パッケージをダウンロード
①

http://khc.sourceforge.net/

か ら 「 Windows 版 パ ッ
ケージ」をダウンロード

② 「khcoder‐2b30‐f.exe」
のようなファイル名をク
リックすると、このペー
ジに飛ぶ

④ 5秒ほど待つと、自動
的にダウンロードが開始
(セキュリティの警告が
出る場合は「許可」や
「保存」をクリック)
4

③ この部分は
広告なので無視
1.2 インストール(解凍)
② Unzip
をクリック

① ダウンロードしたファ
イルをダブルクリック

③ 「unzipped successfully」
の表示が出れば完了なので、す
べての画面を閉じる

KH Coderは解凍(Unzip)するだけで利用可
5
1.3 KH Coderの起動方法(Windows 7)
② 「C:?khcoder」と入力
してEnter キー

① スタートボタン
をクリック

③ 「kh_coder.exe」
Windows 8の場合は
スタート画面で直接
「C:?khcoder」と入力
6

をダブルクリック
2. プロジェクト作成と
前処理

7
2.1 プロジェクト作成(分析するファイルを指定)
① メニューから「プロジェクト」「新規」を選択
② 「参照」をクリックして
「tutorial_jp」フォルダ内の
「kokoro2.txt」を開く

③ 自由にメモを入力

④ 「OK」をクリック
次回KH Coderを起動した時は「新規」ではなく、「プロジ
ェクト」「開く」を選択して、既存のプロジェクトを開く
8
【解説】漱石「こころ」ファイルの内容
このチュートリアルでは漱
石「こころ」(kokoro2.txt)を
分析
物語最後の「先生」の自殺
は突然で不自然という批判
はもっともか?
「こころ」は上?中?下の
3部構成
「上_先生と私」のような
部の見出しをH1タグで括っ
ている
部の内部がさらに一?二?
三などの章に分かれている
9

「一」のような章の見出し
をH2タグで括っている
2.2 前処理(テキストから自動的に語を取り出す)
① KH Coderのメニューから「前処理」「語の取捨選択」
重要な言葉なのに、
1語として抽出されな
い時は「強制抽出」

② 全角で「K」と入力

③ クリック

④ メニューから「前処理」「前処理の実行」
10

→「OK」

KH Coderはアルファ
ベット1文字を無視す
るが、「K」は「ここ
ろ」の重要な人物
そこで「K」を強制抽
出するよう指定して
から、前処理を実行
3. 頻出語と共起

11
3.1 多く出現していた語
① メニューから「ツール」「抽出語」「抽出語リスト」
② 「頻出150語」を選択

③ クリック
小説なので主要人物が上位に
「死ぬ」が89回と多く出現?

12

活用のある語は基本形に直し
て抽出&カウント
ex.「死ねば」→「死ぬ」
3.2 共起ネットワークの作成
① メニューから「ツール」「抽出語」「共起ネットワーク」
② 「集計単位」として「段落」を選んで「OK」
同じ段落によく一緒に出現する
(共起する)語同士を、線(edge)
で結んだネットワーク

③ 「調整」をクリックして、
「描画数」を120にして「OK」
④ 「調整」をクリックして、「出
現数の多い語ほど大きい円…」を
チェックして「OK」

⑤ 「カラー:」の箇所を「サブグ
ラフ検出(modularity)」に変更
13

色々お試しください
【解説】語の共起を探索する手法
階層的クラスター分析、MDS、自己組織化マップ等も利用可

MDS
共起ネットワーク

自己組織化マップ

共起する語のグループから、データ中のテー
マないしトピックを探索できる
これらの多変量解析の実行には内部でRを使用
14

クラスター分析
3.3 KWICコンコーダンス 1/2
① メニューから「ツール」「抽出語」「KWICコンコーダンス」
② 検索したい語を
入力してEnterキー
ダブルクリックで、さら
に広い範囲の文脈を表示

集計や解析の結果だ
けを見るのでは不十
分(多くの場合)
もとのテキスト中で
語がどのように使わ
れていたかを確認!

③ 「集計」をクリックすると
15

コロケーション統計が開く
3.3 KWICコンコーダンス 2/2
① 前のページ手順でコロケーション統計が開く
「左1」は、左側の1つ目、すなわち
直前に出現していた回数のこと。

「意味」は「解る」の3つ前に5回出現

② 表示する語を、
16

品詞をもとに選択可
4. それぞれの部
(上?中?下)
に特徴的な語

17
4.1 それぞれの部の特徴語一覧
① メニューから「ツール」「外部変数と見出し」「リスト」
② クリック

③ 「文」を選択

④ 「特徴語」「一覧(Excel形式)」を選択
18

上?中?下の特徴語が
上 位 10 語 ず つ リ ス ト
アップされる。数値は
どの程度「特徴的」か
を示すJaccard係数。
【解説】特徴語からみる物語の流れ
下 は「先生」が主人公
に送った長い遺書。親
友「K」と「お嬢さん」
との三角関係などを通
じて、上では主人公に
も読者にも「解ら」な
かった事柄が明らかに。

上 では主人公と「先生」

中では主人公が実家に戻

が交流を深めていく。しか
し「先生」の話はよく「解
ら」ないことも多い。

り「父」「母」との会話
が多くなる。「先生」と
も「手紙」をやりとり。

19

Ex. 「先生の話のうちでただ一つ底まで聞きたかったのは,人間がいざと
いう間際に、誰でも悪人になるという言葉の意味であった。単なる言葉と
しては、これだけでも私に解らない事はなかった。しかし…」(上二九)
4.2 対応分析による視覚的な探索
① メニューから「ツール」「抽出語」「対応分析」

② 「H1」になって
いることを確認

③ クリック
20

上?中?下の特徴を
グラフィカルに探索
【解説】対応分析の見方
② 原点(0, 0)から見て、
「上_先生と私」の方向
にある語、そして原点
から離れている語ほど、
上に特徴的!
原点(0, 0)

※特徴語の一覧から読み
取れた上?中?下の特徴
と、おおむね同じ特徴を
対応分析からも読み取れ
る。

21

① 原点(0, 0)付近に
はこれといって特徴
のない語が集まる
5. コーディングによる
コンセプトの抽出

22
【解説】 コーディングとは
語ではなくコンセプトを数えたい場合もある
例えば「人の死」というコンセプトは、「死ぬ」だけ
でなく「殺す」という語でも表現される
コンセプトを数えるためのコーディングルール
コード(コンセプト)の名前

*人の死
死ぬ or 殺す or 亡くなる

コードを付与する条件。「死ぬ」
「殺す」「亡くなる」のどれかが出
現している文書は、「*人の死」に
言及していたと見なされる。

23

チュートリアルで使用
する「theme.txt」
5.1 コーディングルールによる検索
① メニューから「ツール」「文書」「文書検索」
② 「参照」をクリック
して「theme.txt」を開く

④ ダブルクリック
③「段落」を選択

⑤ ダブルクリックで段落全体を表示
24

コーディングルール作成時には、どのような文書にコード
が付与されているかを検索?確認することが大切
5.2 コードのクロス集計(部ごと)
① メニューから「ツール」「コーディング」「クロス集計」
② 「参照」をクリック
して「theme.txt」を開く
人の死

恋愛

③「段落」を選択

④「集計」をクリック

友情

信用?不信

⑤「バブル」をクリック
してプロットを作成
25

下_先生と遺書

中_両親と私

上_先生と私

病気

コードが多く出現して
いたかどうかを、部ご
とに集計したプロット
【解説】部ごとの集計から見る物語の流れ
③ 中?下のよ
うな人物の死は
描かれていない
のに、上でも
「人の死」が一
定数出現。

① 下では3角関係のいき

人の死

さつから親友が自殺。そ
のため「恋愛」「友情」
「信用?不信」が多い。

恋愛

Per cent :

友情

5

10

信用?不信
15

② 中では病気で死に する

26

「父」の様子が描かれる。

下_先生と遺書

中_両親と私

なぜ?
次の分析で確認!

上_先生と私

病気
5.3 コードのクロス集計(章ごと)
① 5.2に続けて以下の操作を行う
②「文」を選択

③「見出し2」を選択
④「集計」をクリック

⑤「選択」「人の死」を
クリックしてグラフを作成
27

「人の死」が多く出現
していたかどうかを、
章ごとに細かく見る折
れ線グラフ
【解説】「人の死」の推移から 1/2
① 自殺の直前だけを見
② しかし物語全体に視
野を広げると、「先生」
が死ぬことに執着してい
る様子が、上でも詳細に
描かれている。
Ex. 「…先生の話は,容
易に自分の死という遠い
問題を離れなかった。そ
うしてその死は必ず奥さ
んの前に起るものと仮定
… 」(上三五)

ると、「先生」はかな
り急激に決意を固めて
いるようにも見える。
上二四
上三五

③ 自殺の理由の一部には、お
金や恋に切羽詰まれば誰でも悪
人になる、人間一般への失望

28

Ex. 「…自分もあの叔父と同じ人間だと意識した時…。他に愛想を尽か
した私は、自分にも愛想を尽かして動けなくなったのです」 (下五二)
【解説】「人の死」の推移から 2/2
④ 自殺が突然で
不自然という批判
は必ずしもあたら
ないのでは?

計量テキスト分析
の利点として:
データ全体を見
渡す視点が得ら
れる
目で読むべき特
徴的な部分はど
こか探索できる
29

上二四
上三五
おわりに
さらに詳しくは

『社会調査のための計量テキスト分析』
(樋口耕一著,ナカニシヤ出版,2014)
第3章の文章版チュートリアルや、
KH Coder同梱のリファレンスマニュアル、
掲示板(ユーザーフォーラム)
などをご利用ください。

謝辞

30

本チュートリアルの作成と改善にあたって
は、立命館大学産業社会学部ならびに大学
院社会学研究科の学生諸氏にご協力いただ
きました。

More Related Content

KH Coder 2 チュートリアル(スライド版)