« リソースは限られているので | トップページ | ようやくコツがつかめてきたか――KH Corderのコーディングルール »

2025年3月21日 (金)

水面下では動いてます――『石見の民話』二周目ロールバック作業中――石東編終了

現在、未来社『石見の民話』分析二周目のロールバック作業を行っております。ブログには反映させていません。現時点では水面下での作業となります。とりあえず石東編が終わりました。

二周目自体は去年の12月初旬には終わっていたのですが、疲れがたまっていたりなんやかんやあったり作業環境を整え直す必要があったりで再び手をつけたのは二月末になってでした。疲れは抜けてきたのか、それからはコンスタントに少しずつこなしています。

次が邑智編ですが、これが50話くらいあり、山場となります。那賀編以降は手順や内容が固まっていきましたので手間が減ると見込んでいます。

平行して三周目の下準備をしています。KH Corderというテキストマイニングのツールを使用して共起ネットワーク図を作成するところまで進めています。テキストマイニングは口コミサイトやSNSのポストなど膨大なボリュームでとても読み切れないといった場合に傾向を把握するため実施するのが本来的な使い方でしょう。私が行っている事例ですと、各話のあらすじが500~2000字ほどで、テキストマイニングにかけるまでもなく目視で済むような話ではあります。まあ、少量のボリュームでもしてはいけないということもないだろうということで、とりあえず図を暫定的に出力するところまで行っています。

分析にはコーディングルールを記した設定ファイルを記述する必要があるのですが(※これ自体はプレーンなテキストファイルでよい)、これはケースバイケースといった要領で各話毎に結果を確認しながら調整していく必要があります。なので、確定させる前に一旦寝るなどして頭をリセットさせた方が望ましいのです。で、記事の執筆に先行して下ごしらえだけやっている次第です。

思ったように出力されない場合、形態素解析した際に固有名詞が適切に文節されていないケースが多いようです。そこに気づいてからはだいぶはかどるようになりました。

三周目にとりかかれるのは早くても秋になってからでしょう。まだ、本当に記事を書けるか未知数だったりします。このシリーズはいつもそんな楽観的なスタンスでやってますが。。。

|

« リソースは限られているので | トップページ | ようやくコツがつかめてきたか――KH Corderのコーディングルール »

昔話」カテゴリの記事