ようやくコツがつかめてきたか――KH Corderのコーディングルール
KH Corder、and条件とシングルクォーテーション「'」の使い方が分かってきた。
とりあえず、
・[前処理]→[テキストのチェック]
・[前処理]→[前処理の実行]
を済ませたら、[ツール]→[抽出語]→[抽出語リスト]で確認する。頻度順におよそ上位100くらいのキーワードが表示される。固有名詞の場合は適切に分節されていない場合がままあるので、事前にこの画面でチェックするといいだろう。
or条件については特に難しくないと思うが、
*神社
神社 or お社
といった風に記述すればいいだろう。ひょっとすると「お社」は後述するシングルクォートでくくった方がいいかもしれない。
たとえば「浮布の池」を形態素解析すると「/浮/布/の/池/」と分節されてしまうのだけど、シングルクォーテーションで「'浮布の池'」とくくればいいようだ。無償版の場合、これで固有名詞の問題はクリアできそうだ。
*浮布池
'浮布の池' or 池
and条件は
*いない
いる and ない
といった使い方になるか。動詞の否定形や形容詞の否定形などを指定したい場合に使えるか。これまで使いどころが分からなかった。
かっこ()は
*触れない
( 触る or つく ) and ない
といった使い方をすればいいか。( )の後に半角の空白を入れるのは盲点であった。
共起ネットワーク図を出力して思ったような結果になっていないと感じたら、[前処理]→[語の抽出結果を確認]でキーワードがどのように分節されているか確認するのが手っ取り早い。
たとえば、禁忌を意味する「~してはいけない」の「いけない」は「/いけ/ない」と分節される。「いけ」は活用形だけど基本形は何だったかな、といった場合、抽出された行をクリックして選択し、左下の[詳細表示]ボタンをクリックする。[詳細表示]→[語の抽出結果:詳細]画面が表示されるので確認すると、「いけ」の基本形は「いける」であることが分かる。
*いけない
いける and ない
と記述すればいい。
対象としているのが昔話/伝説のあらすじで、およそ500~2000字といった少量のボリュームである。
・とりあえず冒頭から読み進め、
・これはというキーワードをピックアップ
*語句A
語句A
*語句B
語句B
といった形で記述していく。
・進むにつれて、or条件などで統合できる語句が出てくるので、それらをまとめていく
・これらを終わりまで進める
・終了したら、or条件、and条件など何らかの条件を付した箇所をカット&ペースで上位にまとめる
……といった形で進めている。このやり方にも問題はあって、少量のボリュームでも後半はピックアップすることに疲れておざなりになってしまいがちである。
・一通り完了したら共起ネットワークでどのように描画されるか確認して、随時修正を加えていく
……といった感じである。このケースだとテキストのボリュームが少ないのでピックアップされる語句の数はさほど多くはならないのだけど、テキストが長文となってくるとピックアップされる語句が多くなり過ぎて、描画した際に文字が重なって読みづらくなってしまう場合がある。
・そこで間引くことも考えなければならないが、
・むしろ、それは原データとして残しておいて、
・何らかの意図/狙いを定めたコーディングルールとなるよう、そこから語句をセレクトしていって別ファイルとして保存していくといった方向性で運用してみてもいいかもしれない(※これはまだ試していない)。
※筆者の場合、貰い物ではあるが、約7000字と13000字のインタビュー記事が手持ちの資料としてある。
KH Corderのフォルダには夏目漱石『こころ』がチュートリアルとして用意されている。
*人の死
死後 or 死病 or 死期 or 死因 or 死骸 or 生死 or 自殺 or 殉死 or 頓死 or 変死 or 亡 or 死ぬ or 亡くなる or 殺す or 亡くす or 死*恋愛
愛 or 恋 or 愛す or 愛情 or 恋人 or 愛人 or 恋愛 or 失恋 or 恋しい*友情
友達 or 友人 or 旧友 or 親友 or 朋友 or 友 or 級友*信用・不信
信用 or 信じる or 信ずる
or 不信 or 疑い or 疑惑 or 疑念 or 猜疑 or 狐疑 or 疑問 or 疑い深い or 疑う or 疑る or 警戒*病気
医者 or 病人 or 病室 or 病院 or 病症 or 病状 or 持病 or 死病 or 主治医 or 精神病 or 仮病 or 病気 or 看病 or 大病 or 病む or 病
といったコーディングルールとなっている。死/愛/友情/不信/病気といった語句に着目して分析を行おうという意図が見て取れる。
ちなみに、対応分析で出てくる「H5」とは何かなと思っていたが、これはヘッダーの見出しレベル5ということであった。つまりHTMLの<H5>タグのことで、本文に相当するようだ。
……手探り状態で進めたので、30話くらい作業を進めてようやく分かってきたかなというところでマニュアルを読み返して、やっと応用事例が思いついた。結局、30話ほどロールバックする羽目となった。
ただ、それらしい図を出力できるようにはなったが、テキストのボリュームが根本的に足りないので、どうしても「恣意的」なものとなってしまう。恣意的と言ってもこれまでの経験と勘で必要そうな単語をピックアップしているだけだが、全体を通してみると僕自身の色が出ている可能性はなきにしもあらず。
まだ下準備の途中なので記事の執筆はだいぶ先だけど、記事をどういう風に書くかはその場にならないと分からない。
量的分析のスキルがないので、基本的には頻出するキーワードがどういう文脈で用いられているか、KWICコンコーダンスなどを活用して読み進めていくという形に落ち着きそうだ。
| 固定リンク
「昔話」カテゴリの記事
- 未来社『石見の民話』二周目ロールバック作業中――邑智編終了(2025.05.15)
- 未来社の民話シリーズ、電子書籍化されていた(2025.05.15)
- 連想は認知科学ではどう整理・分類されているか(2025.04.11)
- ようやくコツがつかめてきたか――KH Corderのコーディングルール(2025.03.25)
- 水面下では動いてます――『石見の民話』二周目ロールバック作業中――石東編終了(2025.03.21)