狠狠撸
Submit Search
KH Coder 3 チュートリアル(スライド版)
?
0 likes
?
90,322 views
khcoder
Follow
KH Coder 3による計量テキスト分析(テキストマイニング)を行なう手順のチュートリアル。題材として漱石「こころ」を使用。
Read less
Read more
1 of 32
Download now
More Related Content
KH Coder 3 チュートリアル(スライド版)
1.
KH Coder 3
チュートリアル 漱石『こころ』を題材に 【スライド版】 1
2.
本チュートリアルの内容 2 1. KH Coderの準備 2.
プロジェクト作成と前処理 3. 頻出語と共起 4. それぞれの部(上?中?下)に特徴的な語 5. コーディングによるコンセプトの抽出
3.
3 1. KH Coderの準備
4.
4 ② クリック ③ 「unzipped
successfully」 の表示が出れば完了なので、す べての画面を閉じる 1.1 インストール(解凍) KH Coderは解凍(Unzip)するだけで利用可 ① ダウンロードしたファ イルをダブルクリック ※ノートンやウイルスバスターに「危険なソフト」と誤判定される場合があります。ノートン等 を一時的に無効にすると動作するようですが、この操作は自己責任でお願いいたします。
5.
5 1.2 KH Coderの起動方法 ①
デスクトップに作成された アイコンをダブルクリック ② 解凍先フォルダが開くので、 「kh_coder.exe」をダブルクリック ※PCの設定によっては、 ?kh_coder? のように、ファイル名の 「.」ピリオド以降を省略した状態で表示されます。
6.
6 2. プロジェクト作成と 前処理
7.
【解説】分析のねらいと進め方 7 本ページのようにタイトルが【解説】で始まるページ では操作不要です。お読みいただくだけで結構です。 漱石『こころ』の探索的分析 物語最後の「先生」の自殺が突然で不自然とい う批判はもっともか? 『こころ』の人間観、人間の罪とは? 分析の手順は大きく分けて2段階 語を自動的に取り出して集計し、予断を交えず にデータの全体像を探る コーディングを行うことで、分析者の観点を 活かしてコンセプトを取り出し、分析を深める
8.
【解説】データの準備 8 『こころ』は上?中?下の 3部構成。部の中がさらに一 ?二?三などの章に分かれる Excelで1つの列にテキストを 入力し、ほかの列にテキスト 以外の情報(今回は部や章の 番号)を入力。テキスト以外 の情報のことを「外部変数」 と呼ぶ。 1行目に列の名前を入力 2行目からデータを入力 1つ目のシートに入力 ※データ量が多くてKH Coderで エラーになる場合、CSV形式で 保存してからKH Coderへ
9.
2.1 プロジェクト作成(分析するファイルを指定) 9 ① メニューから?プロジェクト? 「新規」をクリック ②
?参照? をクリックして ?tutorial_jp?フ ォ ル ダ 内 の ?kokoro.xls?(Excelアイコ ン)を開く ④ クリック 次回KH Coderを起動した時は「新規」ではなく、「プロジ ェクト?「開く」を選択して、既存のプロジェクトを開く この部分を「メニュー」と呼ぶ ③「テキスト? 列と?日本語? が選択されていることを確認
10.
2.2 強制抽出する語の指定 10 ① メニューから「前処理」「語の取捨選択」を選択 ②
「一人」「二人」と入力 ③ クリック 重要な言葉なのに、 1語として抽出されな い時は「強制抽出」 ?一?と?人?に 分 か れ てしまうような?分割 が細かすぎる場合に も有効 細かすぎる分割を洗 い 出 す に は?前 処 理? ?複 合 語 の 検 出?コ マ ンドが便利
11.
2.3 前処理の実行 11 ?前処理? とはテキスト 中から自動的に語を取 り出して分析の準備を する処理 この処理を実行してお かないと分析は行なえ ない ①
メニューから「前処理」「前処理の実行」を選択 ② クリック
12.
12 3. 頻出語と共起ネットワーク
13.
3.1 抽出語リスト 13 ① メニューから「ツール」 「抽出語」「抽出語リスト」 小説なので主要人物が上位に ?死ぬ?が89回と多く出現? ?一人?より?二人?の方が多い! 活用のある語は基本形に直し て抽出&カウント ex.「知らない」→「知る」 ②
番号をクリックで活用形を表示 ③ 抽出語をクリッ クすると?KWICコ ンコーダンス?へ
14.
3.2「KWICコンコーダンス」1/2 14 分析結果中の語をク リックすればこの画 面が開く 数値だけでなく語の 前後の文脈 (context) を見るの が大切 KWIC =
Key Word In Context ① ダブルクリックでさら に広い範囲の文脈を表示 ② ?集計?をクリックする と?コロケーション統計?へ
15.
3.2「KWICコンコーダンス」2/2 15 ① 前ページの手順で?コロケーション統計?が開く ② クリックすれば特定 の品詞の語だけを表示可 「左1」とは、左側の1つ目、すな わち直前に出現していた回数のこと 「父」は「死ぬ」の2語前に7回出現した 前後に多く出現していた語を 通じて、検索対象語がもとの テキスト中でどう使われてい たかという文脈をうかがえる
16.
3.3 共起ネットワーク 16 ① メニューから「ツール」「抽出語」「共起ネットワーク」→「OK」 入力Excelファイルの同じセル内によ く一緒に出現する語(共起する語)を、 線で結んだネットワーク。強く結び ついた部分ごとに自動的にグループ 分け&色分け。 ?調整?をクリックすれば各種オプションを変更可。 Ex.
線(edge)の本数を?上位 60?から?100?へ。 ② 抽出語をクリックすると ?KWICコンコーダンス?へ 「保存」をクリック すれば画像ファイル として保存可。
17.
【解説】語の共起を探索する方法 17 複数の方法の中から選択可 共起する語のグループから、データ中のテー マないしトピックを探索できる これらの分析には内部で?R?という統計ソフト ウェアを使用 共起ネットワーク 自己組織化マップ MDS クラスター分析 ※自己組織化マップは長時間を要するので注意
18.
18 4. それぞれの部(上?中?下)に 特徴的な語 ――特徴語 &
対応分析――
19.
4.1 それぞれの部の特徴語一覧 19 ② 「部」をクリック ③
「文」を選択 ④ 「特徴語」「一覧(Excel形式)」を選択 ① メニューから「ツール」「外部変数と見出し」 3つの部(上?中?下)の 特徴語が上位10語ずつリ ストアップされる。
20.
【解説】特徴語からみる物語の流れ 20 上では主人公と「先生」 が交流を深めていく。しか し「先生」の話はよく「解 ら」ないことも多い。 Ex. 「先生の話のうちでただ一つ底まで聞きたかったのは,人間がいざと いう間際に、誰でも悪人になるという言葉の意味であった。単なる言葉と しては、これだけでも私に解らない事はなかった。しかし…」(上二九) 中では主人公が実家に戻 り「父」「母」との会話 が多くなる。「先生」と も「手紙」をやりとり。 下は「先生」が主人公 に送った長い遺書。親 友「K」と「お嬢さん」 との三角関係などを通 じて、上では主人公に も読者にも「解ら」な かった事柄が明らかに。
21.
4.2 ?対応分析?による視覚的な探索 21 ① メニューから「ツール」「抽出語」「対応分析」 ②「部」が選択され ていることを確認 ③
クリック 部(上?中?下)の 特徴をグラフィカル に探索できる
22.
【解説】?対応分析?の見方 22 原点(0, 0) ① 原点(0,
0)付近に はこれといって特徴 のない語が集まる ② 原点(0, 0)から見て、 「上_先生と私」の方向 にある語、そして原点 から離れている語ほど、 上に特徴的! ※特徴語の一覧から読み 取れた上?中?下の特徴 と、ほぼ同じ特徴を対応 分析からも読み取れる。 ③ 同様に、原点(0, 0) から見て「中_両親と 私」の方に離れている 語ほど、中に特徴的! 下も同じ。
23.
23 5. コーディングによる コンセプトの抽出
24.
24 *人の死 死ぬ or 殺す
or 亡くなる 語ではなくコンセプトを数えたい場合もある 例えば「人の死」というコンセプトは、「死ぬ」だけ でなく「殺す」という語でも表現される コンセプトを数えるためのコーディングルール 【解説】 コーディングとは コード(コンセプト)の名前 コードを付与する条件。「死ぬ」 「殺す」「亡くなる」のどれかが出 現している文書は、「*人の死」に 言及していたと見なされる。 チュートリアルで使用 する「theme.txt」
25.
5.1 コーディングルールによる検索 25 ① メニューから「ツール」「文書」「文書検索」 ②
「参照」をクリックして?tutorial_jp? フォルダ内の 「theme.txt」を開く ④ ダブルクリック ⑤ ダブルクリックでセル全体を表示 コーディングルール作成時には、どのような文書にコード が付与されているかを検索?確認することが大切 ③ H5を選択 Excelの1つ1つのセ ル を KH Coder は ?H5? と認識。H5を 選択するとセル単位 の検索に。
26.
5.2 コードのクロス集計(部ごと) 26 ① メニューから「ツール」「コーディング」「クロス集計」 ②「参照」をクリックして「theme.txt」を開く ※
?theme.txt? とすでに表示されている場合は操作不要 ⑤「バブル」をクリック してプロットを作成 ④「集計」をクリック 各コードが、どの部で 多く出現していたかを 示すプロット ③ H5を選択 ?下? では300セルの うち18セル (6%)が *友情に言及
27.
【解説】部ごとの集計から見る物語の流れ 27 ① 下では3角関係の いきさつから親友が 自殺。そのため「恋 愛 」
「 友 情 」 「 信 用?不信」が多い。 ② 中では病気で死に瀕する 「父」の様子が描かれる。 ③ 中?下のよ うな人物の死は 描かれていない の に 、 上 で も 「人の死」が一 定数出現。 なぜ? 次の分析で確認!
28.
5.3 コードのクロス集計(章ごと) 28 ① 5.2に続けて以下の操作を行う ②「文」を選択 ⑤「選択」「人の死」を クリックしてグラフを作成 ④「集計」をクリック ③「章」を選択 「人の死」コードが どの章で多く出現し ていたかを見る折れ 線グラフ
29.
【解説】「人の死」の推移から 1/3 29 ① 自殺の直前だけを見 ると、「先生」はかな り急激に決意を固めて いるようにも見える。 ②
しかし物語全体に視 野を広げると、「先生」 が死ぬことに執着してい る様子が、上でも詳細に 描かれている。 Ex. 「…先生の話は,容 易に自分の死という遠い 問題を離れなかった。そ うしてその死は必ず奥さ んの前に起るものと仮定 … 」(上三五) 上三五 上二四
30.
【解説】「人の死」の推移から 2/3 30 上三五 上二四③ 自殺の理由の一部には、お 金や恋に切羽詰まれば誰でも悪 人になる、人間一般への失望 Ex.
「…自分もあの叔父と同じ人間だと意識 した時…。他に愛想を尽かした私は、自分に も愛想を尽かして動けなくなったのです」 (下五二)
31.
【解説】「人の死」の推移から 3/3 31 上三五 上二四 ④ 自殺が突然で 不自然という批判 はちょっと漱石に 対して酷では? 計量テキスト分析 の利点として: データ全体を見 渡す視点が得ら れる 目で読むべき特 徴的な部分はど こか探索できる
32.
おわりに 32 各操作の意味や結果の読み取り方についてより詳し くは、「KH Coderの本」第3章をご参照ください。 『社会調査のための計量テキスト分析 第2版』 (樋口耕一著,ナカニシヤ出版,2020) 謝辞 本チュートリアルの作成と改善にあたっては、立命 館大学産業社会学部ならびに大学院社会学研究科の 皆さまにご協力いただきました。 第2版では、よりよい分析?活用の ために研究事例のレビューを増補し、 KH
Coder 3にも対応しました。
Download