石見の牛鬼伝説を試験的にテキストマイニングしてみる
未来社『石見の民話』には石東地方編に「うしおに」が、邑智地方に「狼と牛鬼」が、那賀地方編に「牛鬼」がそれぞれ収録されている。「うしおに」には四つのエピソードが収録されているとも見ることができる。合わせて六つの牛鬼に関連するエピソードが収録されていることになる。これらをcsv形式でマトリクス化した形でファイル化した。それをKH Corderに読み込ませて試験的にテキストマイニングを行ってみた。
| あらすじ | 地名 | 地域 |
| 波路浦に一人の漁師がいた。ある日の漁は大量であった…… | 波路浦 | 石東 |
| 波路浦の大下という家の何代も前の主人が三人の仲間と一緒に四月のある晩釣りに出た…… | 波路浦 | 石東 |
| 日祖の漁師に友村清市という人がいた…… | 日祖 | 石東 |
| 日祖である晩いわしの地引き網を入れた。ところが…… | 日祖 | 石東 |
| 狼は人間が牛鬼や狐に危害を加えられようとするときは…… | 川戸 | 那賀郡 |
| 昔、那賀郡の浅利村に神主がいた。ある晩…… | 浅利 | 那賀郡 |
……といった表を作成する。ファイル形式はcsvでもxlsxでも構わない。
KH Corderでよく利用されるのは共起ネットワークと対応分析とのことである。csv化したのは、対応分析を行うためである。
で、実際に分析した図を表示する。共起ネットワークに関しては、まあこんな感じかなというところである。
対応分析では外部変数を地名とした。赤字で表示されているのが地名である。三つほどのグループに分かれて分布しているように見てとれる。これは、要するに、収録された各エピソード毎にキーワードがまとまっているということである。そういう意味では極めて当たり前の結果が出力された。
ちなみに同じセルのデータは共起関係があると判断されるそうである。
昔話の分析は本来であれば類話を収集して行うものである。当ブログではとにかく数をこなすという方針で『石見の民話』に収録された多彩な昔話/伝説をそれぞれ単品として分析している。『石見の民話』であれば、牛鬼、影ワニ、桃太郎、西行法師、彦八といった民話に関しては類話的な分析も行えるのではないかと考えた。で、試験的に行ってみたのだが、基本的にテキストのボリュームが足りないせいだろう、意外な結果が浮上するといったようなことは起きなかった。目視で足りるような関係しか見いだせていないということである。研究者じゃないから成果がでなくてもお気楽にその記録を残しておくことはできるのである。
ちなみに、コーディング・ルールは下記の通りである。
*牛鬼
牛 or 牛鬼
*日祖
日 or 日祖
*波路浦
波路 or 波路浦
*那賀郡
那賀 or 那賀郡
*魚
魚 or さかな
*火箸
箸 or はし or 火箸
*仏飯
仏 or お仏飯
*濡れ女
女 or 濡れ女
*出雲大社
出雲 or 出雲大社
*狼
狼
*神主
神主
*刀
刀
*櫂
櫂
*椿
椿
*たらい
たらい
*妻
妻
*怪物
怪物
本来であれば、OR条件の付されていない項目は無くても構わないはずなのだが、テキストのボリュームが足りないためか、こうしないと思うような結果が出力されないのである。
うーん……、やり方さえ分かってしまえば、分析そのものは短時間で作業できるのだけど、コーディング・ルールに関しては一度寝て頭をリセットさせないと客観的に見られないかもしれない。一作品に最低二日かかることになるか。約160話あるから、本格的にやるとしたら一年くらいかかることになる。
テキストマイニングは従来だと情報学の専門家、ないしは統計学の知識、プログラミングのスキルがないとできなかったことを素人でもボタン一発でイメージ化できるようにしたという点では分析の敷居を下げた凄い技術だと思う。
| 固定リンク
「昔話」カテゴリの記事
- 未来社『石見の民話』分析三周目、下処理を終える(2026.01.27)
- 抽象化がキーか――小澤俊夫『昔話の語法』(2025.09.12)
- 未来社『石見の民話』三周目の下準備にかかる(2025.08.19)
- 未来社『石見の民話』ロールバック二周目の作業が終了(2025.08.15)
- 未来社『石見の民話』二周目ロールバック作業――石西編終了(2025.08.07)



