KH Corder、and条件とシングルクォート「'」の使い方が分かってきた。
とりあえず、
※新規の場合
・[プロジェクト]→[新規]→[参照]で分析したいファイルを指定
※再開する場合
・[プロジェクト]→[開く]で一覧から対象ファイルを選択して[開く]
なお、当分析の場合、分析するテキストは昔話/伝説のあらすじを記したプレーンなテキストファイルで、原則として改行と空白行を削除してひとまとまりの文章として分析にかけている。
もちろん、通常の文章ではそういった下処理は不要である。
KH Corderの仕様で、「一文単位で共起関係を分析する」 or 「改行単位で共起関係を分析する」と選択できる。ちなみに4000字以内で要改行となる。当分析で用いているあらすじは500~2000字ほどのボリュームなのでこれまで制限にひっかかったことはないが。
・[前処理]→[テキストのチェック]
※エラーが返される場合がある。特定の半角記号が用いられていること等が原因と思われる。[修正]ボタンをクリックすれば訂正処理を実行してくれる。
・[前処理]→[前処理の実行]
を済ませたら、[ツール]→[抽出語]→[抽出語リスト]で確認する。頻度順におよそ上位100くらいのキーワードが表示される。固有名詞の場合は適切に分節されていない場合がままあるので、事前にこの画面でチェックするといいだろう。
※サブ画面の下の[Excel出力]ボタンをクリックすると、形態素解析された一覧が表形式で表示される。
これらを参照しながらコーディングルールを記述していく。なお、分析するファイルとコーディングルールを記述したファイルは同じフォルダに保存すると参照時の画面遷移の手間が省かれる。
・とりあえず冒頭から読み進め、
・これはというキーワードをピックアップ
*語句A
語句A
*語句B
語句B
といった形で記述していく。「*」以下はキャプションなので随意に記述してよい。共起ネットワークだと、バブルのキャプションとして表示される。
・進むにつれて、or条件などで統合できる語句が出てくるので、それらをまとめていく
・これらを終わりまで進める
・終了したら、or条件、and条件など何らかの条件を付した箇所をカット&ペースで上位にまとめると見やすくなる
or条件については特に難しくないと思うが、
*神社
神社 or お社
といった風に記述すればいいだろう。ひょっとすると「お社」は後述するシングルクォートでくくった方がいいかもしれない。
たとえば「浮布の池」を形態素解析すると「/浮/布/の/池/」と分節されてしまうのだけど、シングルクォートで「'浮布の池'」とくくればいい。無償版の場合、これで固有名詞の問題はクリアできそうだ。
*浮布池
'浮布の池' or 池
and条件は
*いない
いる and ない
といった使い方になるか。動詞の否定形や形容詞の否定形などを指定したい場合に使えるか。これまで使いどころが分からなかった。
[前処理]→[語の抽出結果を確認]でキーワードがどのように分節されているか検索すると結果の一覧が表示される。確認したい行をクリックして選択、画面下の[詳細表示]ボタンをクリックするとサブ画面が表示され、活用形や基本形が確認できる。
※コーディングルールでは基本形を記述する。
たとえば、禁忌を意味する「~してはいけない」の「いけない」は「/いけ/ない/」と分節される。「いけ」は活用形だけど基本形は何だったかな、といった場合、抽出された行をクリックして選択し、左下の[詳細表示]ボタンをクリックする。[詳細表示]→[語の抽出結果:詳細]画面が表示されるので確認すると、「いけ」の基本形は「いける」であることが分かる。
*いけない
いける and ない
と記述すればいい。
かっこ()は
*触れない
( 触る or つく ) and ない
*触れない
( 触る and ない ) or ( つく and ない )
といった使い方をすればいいか。( )の前後に半角の空白を入れるのは盲点であった。
※ただし、否定形「ない」は文中で様々な動詞や修飾語と結びついて結節点の役割を果たしている。共起ネットワークではそういった結節点となっているキーワードを可視化するので、敢えてand条件を指定する必要性は薄いかもしれない。これは今後本格的な分析に入る際の課題である。
not条件を付ければ除外指定できるはずだが、当分析ではそこまでの必要はないと判断して使用していない。
・一通り完了したら共起ネットワークでどのように描画されるか確認して、随時修正を加えていく
コーディングルールのファイルの記述がひと段落したら、[ツール]→[コーディング]→[共起ネットワーク]を選択して図示してみるのが手っ取り早い。思ったようになっていないと感じたらコーディングルールの記述に問題がある可能性が高い。そこで、コーディングルールの見直しを行っていく。
※コーディングルールの記述に変更を加えたら、サブ画面で[クリア]ボタンをクリック、一旦リセットし、再度[参照]ボタンをクリックしてコーディングルールを記述したファイルを指定する。
当ブログでは分析の対象としているのが昔話/伝説のあらすじで、およそ500~2000字といった少量のボリュームである。テキストのボリュームが少量でも解析は正常に処理されるようだ。
……といった形で進めている。このやり方にも問題はあって、少量のボリュームでも後半はピックアップすることに疲れておざなりになってしまいがちである。
……といった感じである。このケースだとテキストのボリュームが少ないのでピックアップされる語句の数はさほど多くはならないのだけど、テキストが長文となってくるとピックアップされる語句が多くなり過ぎて、描画した際に文字が重なって読みづらくなってしまう場合がある。
・そこで間引くことも考えなければならないが、
・むしろ、それは原データとして残しておいて、
・何らかの意図/狙いを定めたコーディングルールとなるよう、そこから語句をセレクトしていって別ファイルとして保存していくといった方向性で運用してみてもいいかもしれない(※これはまだ試していない)。
※筆者の場合、貰い物ではあるが、約7000字と13000字のインタビュー記事が手持ちの資料としてある。
KH Corderのフォルダには夏目漱石『こころ』がチュートリアルとして用意されている。
*人の死
死後 or 死病 or 死期 or 死因 or 死骸 or 生死 or 自殺 or 殉死 or 頓死 or 変死 or 亡 or 死ぬ or 亡くなる or 殺す or 亡くす or 死
*恋愛
愛 or 恋 or 愛す or 愛情 or 恋人 or 愛人 or 恋愛 or 失恋 or 恋しい
*友情
友達 or 友人 or 旧友 or 親友 or 朋友 or 友 or 級友
*信用・不信
信用 or 信じる or 信ずる
or 不信 or 疑い or 疑惑 or 疑念 or 猜疑 or 狐疑 or 疑問 or 疑い深い or 疑う or 疑る or 警戒
*病気
医者 or 病人 or 病室 or 病院 or 病症 or 病状 or 持病 or 死病 or 主治医 or 精神病 or 仮病 or 病気 or 看病 or 大病 or 病む or 病
といったコーディングルールとなっている。死/愛/友情/不信/病気といった語句に着目して分析を行おうという意図が見て取れる。
ちなみに、対応分析で出てくる「H5」とは何かなと思っていたが、これはヘッダーの見出しレベル5ということであった。つまりHTMLの<H5>タグのことで、本文に相当するようだ。
……手探り状態で進めたので、30話くらい作業を進めてようやく分かってきたかなというところでマニュアルを読み返して、やっと応用事例が思いついた。結局、30話ほどロールバックする羽目となった。
ただ、それらしい図を出力できるようにはなったが、テキストのボリュームが根本的に足りないので、どうしても「恣意的」なものとなってしまう。恣意的と言ってもこれまでの経験と勘で必要そうな単語をピックアップしているだけだが、全体を通してみると僕自身の色が出ている可能性はなきにしもあらず。
まだ下準備の途中なので記事の執筆はだいぶ先だけど、記事をどういう風に書くかはその場にならないと分からない。
量的分析のスキルがないので、基本的には頻出するキーワードがどういう文脈で用いられているか、KWICコンコーダンスなどを活用して読み進めていくという形に落ち着きそうだ。