狠狠撸
Submit Search
KH Coder 2 チュートリアル(スライド版)
?
56 likes
?
266,577 views
khcoder
Follow
KH Coderを用いて計量テキスト分析を行う方法を、簡易なスライド形式で解説。
Read less
Read more
1 of 30
Download now
More Related Content
KH Coder 2 チュートリアル(スライド版)
1.
KH Coder チュートリアル 漱石「こころ」を題材に 【スライド版】 1
2.
本チュートリアルの内容 1. 2. 3. 4. 5. 2 KH Coderの準備 プロジェクト作成と前処理 頻出語と共起 それぞれの部(上?中?下)に特徴的な語 コーディングによるコンセプトの抽出
3.
1. KH Coderの準備 3
4.
1.1 Windows版パッケージをダウンロード ① http://khc.sourceforge.net/ か ら
「 Windows 版 パ ッ ケージ」をダウンロード ② 「khcoder‐2b30‐f.exe」 のようなファイル名をク リックすると、このペー ジに飛ぶ ④ 5秒ほど待つと、自動 的にダウンロードが開始 (セキュリティの警告が 出る場合は「許可」や 「保存」をクリック) 4 ③ この部分は 広告なので無視
5.
1.2 インストール(解凍) ② Unzip をクリック ①
ダウンロードしたファ イルをダブルクリック ③ 「unzipped successfully」 の表示が出れば完了なので、す べての画面を閉じる KH Coderは解凍(Unzip)するだけで利用可 5
6.
1.3 KH Coderの起動方法(Windows
7) ② 「C:?khcoder」と入力 してEnter キー ① スタートボタン をクリック ③ 「kh_coder.exe」 Windows 8の場合は スタート画面で直接 「C:?khcoder」と入力 6 をダブルクリック
7.
2. プロジェクト作成と 前処理 7
8.
2.1 プロジェクト作成(分析するファイルを指定) ① メニューから「プロジェクト」「新規」を選択 ②
「参照」をクリックして 「tutorial_jp」フォルダ内の 「kokoro2.txt」を開く ③ 自由にメモを入力 ④ 「OK」をクリック 次回KH Coderを起動した時は「新規」ではなく、「プロジ ェクト」「開く」を選択して、既存のプロジェクトを開く 8
9.
【解説】漱石「こころ」ファイルの内容 このチュートリアルでは漱 石「こころ」(kokoro2.txt)を 分析 物語最後の「先生」の自殺 は突然で不自然という批判 はもっともか? 「こころ」は上?中?下の 3部構成 「上_先生と私」のような 部の見出しをH1タグで括っ ている 部の内部がさらに一?二? 三などの章に分かれている 9 「一」のような章の見出し をH2タグで括っている
10.
2.2 前処理(テキストから自動的に語を取り出す) ① KH
Coderのメニューから「前処理」「語の取捨選択」 重要な言葉なのに、 1語として抽出されな い時は「強制抽出」 ② 全角で「K」と入力 ③ クリック ④ メニューから「前処理」「前処理の実行」 10 →「OK」 KH Coderはアルファ ベット1文字を無視す るが、「K」は「ここ ろ」の重要な人物 そこで「K」を強制抽 出するよう指定して から、前処理を実行
11.
3. 頻出語と共起 11
12.
3.1 多く出現していた語 ① メニューから「ツール」「抽出語」「抽出語リスト」 ②
「頻出150語」を選択 ③ クリック 小説なので主要人物が上位に 「死ぬ」が89回と多く出現? 12 活用のある語は基本形に直し て抽出&カウント ex.「死ねば」→「死ぬ」
13.
3.2 共起ネットワークの作成 ① メニューから「ツール」「抽出語」「共起ネットワーク」 ②
「集計単位」として「段落」を選んで「OK」 同じ段落によく一緒に出現する (共起する)語同士を、線(edge) で結んだネットワーク ③ 「調整」をクリックして、 「描画数」を120にして「OK」 ④ 「調整」をクリックして、「出 現数の多い語ほど大きい円…」を チェックして「OK」 ⑤ 「カラー:」の箇所を「サブグ ラフ検出(modularity)」に変更 13 色々お試しください
14.
【解説】語の共起を探索する手法 階層的クラスター分析、MDS、自己組織化マップ等も利用可 MDS 共起ネットワーク 自己組織化マップ 共起する語のグループから、データ中のテー マないしトピックを探索できる これらの多変量解析の実行には内部でRを使用 14 クラスター分析
15.
3.3 KWICコンコーダンス 1/2 ①
メニューから「ツール」「抽出語」「KWICコンコーダンス」 ② 検索したい語を 入力してEnterキー ダブルクリックで、さら に広い範囲の文脈を表示 集計や解析の結果だ けを見るのでは不十 分(多くの場合) もとのテキスト中で 語がどのように使わ れていたかを確認! ③ 「集計」をクリックすると 15 コロケーション統計が開く
16.
3.3 KWICコンコーダンス 2/2 ①
前のページ手順でコロケーション統計が開く 「左1」は、左側の1つ目、すなわち 直前に出現していた回数のこと。 「意味」は「解る」の3つ前に5回出現 ② 表示する語を、 16 品詞をもとに選択可
17.
4. それぞれの部 (上?中?下) に特徴的な語 17
18.
4.1 それぞれの部の特徴語一覧 ① メニューから「ツール」「外部変数と見出し」「リスト」 ②
クリック ③ 「文」を選択 ④ 「特徴語」「一覧(Excel形式)」を選択 18 上?中?下の特徴語が 上 位 10 語 ず つ リ ス ト アップされる。数値は どの程度「特徴的」か を示すJaccard係数。
19.
【解説】特徴語からみる物語の流れ 下 は「先生」が主人公 に送った長い遺書。親 友「K」と「お嬢さん」 との三角関係などを通 じて、上では主人公に も読者にも「解ら」な かった事柄が明らかに。 上 では主人公と「先生」 中では主人公が実家に戻 が交流を深めていく。しか し「先生」の話はよく「解 ら」ないことも多い。 り「父」「母」との会話 が多くなる。「先生」と も「手紙」をやりとり。 19 Ex.
「先生の話のうちでただ一つ底まで聞きたかったのは,人間がいざと いう間際に、誰でも悪人になるという言葉の意味であった。単なる言葉と しては、これだけでも私に解らない事はなかった。しかし…」(上二九)
20.
4.2 対応分析による視覚的な探索 ① メニューから「ツール」「抽出語」「対応分析」 ②
「H1」になって いることを確認 ③ クリック 20 上?中?下の特徴を グラフィカルに探索
21.
【解説】対応分析の見方 ② 原点(0, 0)から見て、 「上_先生と私」の方向 にある語、そして原点 から離れている語ほど、 上に特徴的! 原点(0,
0) ※特徴語の一覧から読み 取れた上?中?下の特徴 と、おおむね同じ特徴を 対応分析からも読み取れ る。 21 ① 原点(0, 0)付近に はこれといって特徴 のない語が集まる
22.
5. コーディングによる コンセプトの抽出 22
23.
【解説】 コーディングとは 語ではなくコンセプトを数えたい場合もある 例えば「人の死」というコンセプトは、「死ぬ」だけ でなく「殺す」という語でも表現される コンセプトを数えるためのコーディングルール コード(コンセプト)の名前 *人の死 死ぬ or
殺す or 亡くなる コードを付与する条件。「死ぬ」 「殺す」「亡くなる」のどれかが出 現している文書は、「*人の死」に 言及していたと見なされる。 23 チュートリアルで使用 する「theme.txt」
24.
5.1 コーディングルールによる検索 ① メニューから「ツール」「文書」「文書検索」 ②
「参照」をクリック して「theme.txt」を開く ④ ダブルクリック ③「段落」を選択 ⑤ ダブルクリックで段落全体を表示 24 コーディングルール作成時には、どのような文書にコード が付与されているかを検索?確認することが大切
25.
5.2 コードのクロス集計(部ごと) ① メニューから「ツール」「コーディング」「クロス集計」 ②
「参照」をクリック して「theme.txt」を開く 人の死 恋愛 ③「段落」を選択 ④「集計」をクリック 友情 信用?不信 ⑤「バブル」をクリック してプロットを作成 25 下_先生と遺書 中_両親と私 上_先生と私 病気 コードが多く出現して いたかどうかを、部ご とに集計したプロット
26.
【解説】部ごとの集計から見る物語の流れ ③ 中?下のよ うな人物の死は 描かれていない のに、上でも 「人の死」が一 定数出現。 ① 下では3角関係のいき 人の死 さつから親友が自殺。そ のため「恋愛」「友情」 「信用?不信」が多い。 恋愛 Per
cent : 友情 5 10 信用?不信 15 ② 中では病気で死に する 26 「父」の様子が描かれる。 下_先生と遺書 中_両親と私 なぜ? 次の分析で確認! 上_先生と私 病気
27.
5.3 コードのクロス集計(章ごと) ① 5.2に続けて以下の操作を行う ②「文」を選択 ③「見出し2」を選択 ④「集計」をクリック ⑤「選択」「人の死」を クリックしてグラフを作成 27 「人の死」が多く出現 していたかどうかを、 章ごとに細かく見る折 れ線グラフ
28.
【解説】「人の死」の推移から 1/2 ① 自殺の直前だけを見 ②
しかし物語全体に視 野を広げると、「先生」 が死ぬことに執着してい る様子が、上でも詳細に 描かれている。 Ex. 「…先生の話は,容 易に自分の死という遠い 問題を離れなかった。そ うしてその死は必ず奥さ んの前に起るものと仮定 … 」(上三五) ると、「先生」はかな り急激に決意を固めて いるようにも見える。 上二四 上三五 ③ 自殺の理由の一部には、お 金や恋に切羽詰まれば誰でも悪 人になる、人間一般への失望 28 Ex. 「…自分もあの叔父と同じ人間だと意識した時…。他に愛想を尽か した私は、自分にも愛想を尽かして動けなくなったのです」 (下五二)
29.
【解説】「人の死」の推移から 2/2 ④ 自殺が突然で 不自然という批判 は必ずしもあたら ないのでは? 計量テキスト分析 の利点として: データ全体を見 渡す視点が得ら れる 目で読むべき特 徴的な部分はど こか探索できる 29 上二四 上三五
30.
おわりに さらに詳しくは 『社会調査のための計量テキスト分析』 (樋口耕一著,ナカニシヤ出版,2014) 第3章の文章版チュートリアルや、 KH Coder同梱のリファレンスマニュアル、 掲示板(ユーザーフォーラム) などをご利用ください。 謝辞 30 本チュートリアルの作成と改善にあたって は、立命館大学産業社会学部ならびに大学 院社会学研究科の学生諸氏にご協力いただ きました。
Download