昔話

2025年9月12日 (金)

抽象化がキーか――小澤俊夫『昔話の語法』

小澤俊夫『昔話の語法』を読む。同じ言葉で繰り返すといった昔話特有の語りについて重点を置いて解説している。第5章では音楽理論と対比しながら説明されるのだけど、生憎と楽譜が読めず、何となくといった程度に留まってしまう。

本書ではグリム兄弟を昔話研究の嚆矢と位置づけている。というのは昔話を採集した際に話者の名前、生育歴なども記録していったからである。そしてグリム兄弟からマックス・リュティに至るまでの昔話研究の歴史が語られていく。

小澤氏はリュティと親交があり、その理論を積極的に取り入れている。本書では昔話の様式理論と記述している。個人的には昔話の現象学といった趣に感じられる。昔話には特有の様式があり、リアリズム的な描写とは対称的な側面があることを提示した画期的な研究なのだけど、そのリュティも突然変異的にその理論に到達したのではなく、背景に美学の進展、感情移入説から抽象衝動説への展開があったことが解説されている。

抽象化、西欧では写真技術の発展が背景にあるだろう。カメラオブスキュラだったか、早い段階から初歩的なカメラの原理を応用したりもして写実的な描写をよしとしていた西欧美術が写真の登場で価値が揺らぎ、抽象的な方向性へと転回をはじめた。それと軌を一にしていると思われる。

美学はバウムガルテンの著作を嚆矢とするのだけど、元々は詩を対象としたものだった。そして詩は朗読されるものという前提があったのである。朗読/朗誦するといった点では語りとの近縁性を見出すことが可能だろう。また、「自己修正の法則」が働くことも背景にあるだろう。文章で記述されると次第に描写が細密なものとなっていくが、語りではそうして複雑化していくと聴き手の理解が及ばなくなってしまうこともあり簡略化されていく傾向が認められるそうだ。

日本での昔話の採集は昭和30~40年代くらいがピークだろうか。当時は明治生まれの老人たちが多く生存していたのである。現在はお年寄りといっても多くは戦後生まれだ。メディアの発達で語りの場はほとんど失われてしまった。現在は書物を読んでそれを語るといった書承的な語り手がほとんどだろう。

再話についても語られる。地元の言葉で語る/標準語で語るといった選択肢がある。方言風の言葉づかい――たとえばアニメ「まんが日本昔ばなし」は東北弁っぽい語りだったが、あれは実際にはどこの地方の言葉という訳でもないだろう――だと却って地元の言葉に変換しづらく語りにくくなってしまうのだとか。

甑島(こしきじま)という鹿児島県の離島の民話を採集した本を借りたことがあるが、九州南部の方言そのもので採録されていて、読もうとしてもさっぱり意味がとれなかったりしたことがある。

小澤氏は昔話の研究に注力されていたようで、たとえば日本昔話通観といった大著の編纂にも関与されている。そのためか、神話学については目配りされていないように思える。神話は体系化されている神話(※つまり知識層によって編纂された)と体系化されていない神話とに大別されるが、体系化されていない、無文字社会の神話――これは神話と民話を区別するのが難しい側面もあるが、話者の中では区別がついているらしい――を参照しながらリュティの著書を再読してみたいと考えている。

|

2025年8月19日 (火)

未来社『石見の民話』三周目の下準備にかかる

未来社『石見の民話』三周目の下準備、個別エピソードについては二周目のロールバック作業と並行して行っていたのだけど、これから対応分析を想定して類話の下準備にとりかかるつもりである。

類話といっても細部が異なるものではなく、主人公が同じだけど別のシチュエーションとか、同じ話型の話だけど登場人物や舞台などは異なっているといったケースを想定している。

何話か試してみたのだけど、コーディングルールの記述をかなり間引かないと、図上で文字が重なって読めなくなってしまうと気づいた段階である。

そもそも昔話でやって意味があるのかという考えもあるのだけど、やってみないと分からない、数をこなさないと見えてこない場合もあるというのがこれまでで得た経験なので、とりあえず下準備は進めるつもりである。

対応分析や共起ネットワークに関する論文を何本か取り寄せて読んでみたのだけど、「ここはこうなっているから、こういう風に解釈できる」といったような解説は意外とされていなかった。図示して「御覧の通り」といった感じであった。

<追記>
対応分析のコーディングルールは一から作り直した方が早いと判断を切り替える。他、彦八が主人公の彦八話でも内容が異なるものでクロス集計をかけると、カイ二乗値で※、要するに相関関係を示すマークがつかない。

|

2025年8月15日 (金)

未来社『石見の民話』ロールバック二周目の作業が終了

未来社『石見の民話』ロールバック作業二周目が終わる。これでひと段落。去年の二月頃から手をつけ始めて、今夏でようやく基礎の部分が終わった。一年半かかったことになる。後は解説記事とあとがきを書けばだいたい終わり。出そうと思えばすぐに出せなくもないのだけど、未読の関連書籍がたまっていて、それを読破しなければならない。読書に関しては本との相性もあるので、どれくらいかかるか時間が読めない。一応、年度末くらいを想定しているけど、それ以上かかるかもしれない。

|

2025年8月 7日 (木)

未来社『石見の民話』二周目ロールバック作業――石西編終了

未来社『石見の民話』分析二周目のロールバック作業、石西編まで終わる。163/163。最後ら辺は軽めの内容だったのでラストスパートをかけて一気に終わらせた。約半年かかった。行為項分析の見直しとコーディングルール作成が特にしんどい作業だった。

コーディングルールは基本的には単語を拾っていくだけなのだけど、そうは言っても163話もあればさすがにきつい。

実はロールバックの二周目がまだあって、90話以上処理しなければならない。これは一日数話は処理できそうなので、できるだけ早めに終わらせたい。

|

2025年6月19日 (木)

未来社『石見の民話』二周目ロールバック作業中――那賀編終了

未来社『石見の民話』分析二周目のロールバック作業、那賀編まで終わる。107/163といった進捗状況。残すは石西編だけだが、収録話数が多く、ノートラブルで進行しても八月下旬までかかりそうだ。

|

2025年6月 4日 (水)

ロールバック作業、三周目が確定

ロールバック作業、追記の必要が生じた。喜ばしいことではあるのだけど、三周目が確定してしまった。次は一日数件以上こなせるだろうから今のように終わりが見えてこなくてフラストレーションがたまることはなさそうだが。……でも、今年いっぱいくらいはかかるか。

|

2025年5月15日 (木)

未来社の民話シリーズ、電子書籍化されていた

未来社の民話シリーズ、電子書籍化されていたことに気づく。固定レイアウトなので、大きめでFHDのタブレットでないと読みづらいと想像されるが。一部の本しか読んでいないけれど、文字コード的には問題はなさそうだから、リフロー型にして欲しいところではある。全部で何冊あるのか把握していないけれど、結構な冊数があるので紙の本だと収集が難しい面があったが、電子書籍なら……とは感じた。

|

未来社『石見の民話』二周目ロールバック作業中――邑智編終了

未来社『石見の民話』分析二周目のロールバック作業、邑智編まで終わる。74/163といった進捗状況。ようやく半分まで来た。残り、那賀編でひと月、石西編で二か月といったところ。ノートラブルで進行しても八月半ばから下旬くらいまでかかる見通し。

石東編では行為項分析がやり直しに近いケースもあったのだけど、邑智編では少々の手直しで済むケースがほとんどだった。その点ではだいぶ楽にはなった。

三周目の下準備もKH Corderのコーディングルールについてはコツがつかめてきて、それっぽい図を出力するところまでは持ち込めるようにはなった。図を分析にどう活かすかは現時点ではノーアイデアだけど、最悪、コーディングルールの事例集という形でもいいのではないかと考えている。

KH Corderを使いこなすには先ずコーディングルールの要点を掴むことが肝要となるが、僕自身、短い話を大量にこなすことで何となく分かってきた側面がある。一度分かってしまえば後はそれらを一つのノウハウとして公開してしまえばいい。

これまで確認した分では、分析に用いたテキストのボリュームが小さいためか、Jaccard係数が高く出る傾向にあるようだが、分析自体は正常に処理されていると考えられる。

民俗学だと統計的に有意なボリュームのデータを取ることが困難と思われるけれど、分析の対象をテキストにまで拡大すれば、これまでに膨大な量の蓄積があるはず。また、アンケートの自由記述欄の分析にも活用できる。ここで試行錯誤した結果を引き継いでもらえれば……というところ。

|

2025年4月11日 (金)

連想は認知科学ではどう整理・分類されているか

「連想」というキーワードで国会図書館に所蔵された雑誌を検索し、とりあえず下記の論文の遠隔複写サービスを申し込む。


1. 山愛美「連続連想にみられる反応パターンの特徴」『心理学研究』57(5)(日本心理学会編集委員会/編, 日本心理学会, 1986)pp.287-292.

2. 深尾誠, 大河内茂美「言語連想における刺激語と反応語の線形変換モデルの検証」『心理学研究』64(2)(日本心理学会編集委員会/編, 日本心理学会, 1993)pp.91-98.

3. 鍋田智広, 目久田純一, 神垣彬子, 松井剛太, 朴信永, 山崎晃「幼児の連想的記憶における意味的知識の発達」『心理学研究』78(6)(日本心理学会編集委員会/編, 日本心理学会, 2008)pp.591-598.

4. 松田崇志, 松川順子「連想構造を持つリストにおける検索誘導性忘却への加齢の影響」『心理学研究』81(5)(日本心理学会編集委員会/編, 日本心理学会, 2010)pp.517-522.

5. 月元敬, 橋本剛明, 唐沢かおり「間接的連想関係による虚記憶」『心理学研究』82(1)(日本心理学会編集委員会/編, 日本心理学会, 2011)pp.49-55.

・西田勇樹, 服部雅史, 織田涼「遠隔連想テストは何を測るか」『心理学研究』94(5)(日本心理学会編集委員会/編, 日本心理学会, 2003)pp.392-401.


……これらの論文はタイトルにあるような実験の結果に統計処理を施して分析したもので、統計学は未履修なので内容まで理解した訳ではない。

心理学というか認知科学で連想がどのような模式図で描かれているのかと考えたのだけど、基本的には語句と語句とを線分で結ぶ形式でよさそうだった。

連想とは一つの言葉や観念が別の言葉や観念を呼び起こすことと定義できる。そのため、刺激語とそれに対する反応語とに区別されている。心理学の実験では連想の反応時間に着目したり制限時間を設けたりするケースが多いようだ。

1の論文では連想を

・分離的自由連想
・継続的自由連想
・分離的制限連想
・継続的制限連想

と分類している。

・継続的方法はある一つの刺激語に対して連鎖的に反応語を求める
・分離的方法は反応語を一語だけに制限する
・制限的方法は反応語をたとえば「動物の中から選びなさい」等と制限する

また、反応語については、ポジティブ/ニュートラル/ネガティブと三分類している。

2の論文では、

・間接連続連想:刺激語に対する反応語が次の反応語を出すための刺激語となりその語に対する反応語が次の反応語を引き出すための刺激語となるような連想法
・直接連続連想:最初に与えた刺激語に対して思い浮かぶ限り反応語を出してもらうような連想法

の二つを挙げている。ざっくりとだが、2論文では連想を行列と捉える。線形代数の世界である。ただし、2論文では連想構造の線形性を仮定しているが、非線形性のモデルがあり得ることも想定している。

また、因子として、

・明暗の因子……“暗い―明るい”“ねっとりとした―さっぱりした”
・情緒的評価の因子……“嫌な―好ましい”“親しみにくい―親しみやすい”
・緊張・弛緩の因子……“硬い―柔らかい”“力強い―弱々しい”
・興奮・沈静の因子……“重々しい―軽やかな”“落ちついた―にぎやかな”
・一般的評価の因子……“醜い―美しい”“冷たい―暖かい”

といった風に五つに分類した因子分析を行っている。

3の論文では虚偽記憶を取り上げている。虚偽記憶とは、実際には生じていない出来事を誤って想起することとしている。要するに勘違いである。虚偽記憶を調べる手法としてDRM法と呼ばれる実験手法がある。ちなみにDRMとは三人の人名の頭文字からとられている。

DRM法においては、学習時に呈示されたリスト内の単語(学習語)と共に呈示されていないクリティカル・ルアーと呼ばれる単語までも誤って再生、再認してしまうことが発生するとのことである。

3論文では、DRM法における虚偽記憶が意味的知識の構造を反映する点で注目が集まっているとしている。

4の論文では、虚記憶と呼称しているが、DRM法を用いた検索誘導性忘却について実験/検証が行われている。

検索誘導性忘却とは、記憶からある項目(ターゲット項目)を検索すると、その検索行為により、後のターゲット自身の検索可能性は増加するが、一方で、ターゲット項目と関連した項目は抑制され、検索可能性が低下することとしている。

4論文では、連想的な関係性を持つ項目は連想関係によって結びついており、連想ネットワーク構造を持っている。そのような連想ネットワーク構造の中から特定のターゲット項目を検索するとき、ターゲット項目と連想的な関係性にある項目も同時に活性化され、活性化資源を奪い合うこととなる。ターゲット項目を適切かつ迅速に検索するため、この競合状態を解消するよう抑制機能が働くとの仮説を立てている。

5の論文では、たとえば「消防士は男性的職業」といったステレオタイプが媒介する間接的連想関係について実験/検証している。

連想関係を、

・直接的連想関係
・間接的連想関係

とに分類している。たとえば、「りんご」と「赤い」、「赤い」と「ポスト」は直接的連想関係にある一方、「りんご」と「ポスト」は直接的連想関係ではなく「赤い」が媒介した間接的連想関係となる。

5論文ではDRM法をDRMパラダイムと呼称し、ルア語の他、学習語と意味的関連のない新奇語も取り上げている。

6の論文は、洞察問題について実験/検証を行った論文である。洞察問題とは、解決するために特別な知識を必要としないが、すぐに思いつくような方法では解決できないことが多い問題としている。

洞察問題解決を研究するため遠隔連想テスト(RAT)がよく用いられているとのこと。日本語版RATだと、たとえば「住」「在」「汚」といった三つの問題語がある。正解語は「職」である。固着語(三つのうち二つだけと単語を構成する語)は「宅」である。

実験はクラウドソーシングサイトで被験者を募り、WEB上で回答させる形式となっている。

……といった内容だった。6論文だけ少し離れた内容となっている。

「連想」に関して、認知科学でどのような定義づけがされているか調べたもの。NDL-OPACで検索してヒットしたものの上位から選んだもので、『心理学研究』に絞って取り寄せた。他にも掲載論文はあったのだけど、他との兼ね合いでこの程度の数字に留めた。右も左も分からない状態だったので万全とは言えないが、とりあえずのとっかかりとはなったのではないか。

こうしてみると、数学を避けていたツケがのしかかってくる。僕の母校の学部では一般教養の理系科目に心理学があったのでそれを履修したのだけど、それは基礎的な内容で、こういった統計学を駆使したような内容では当然なかった。

ちなみに、若き日の西垣通氏も講師としていらした。そちらは教職課程とバッティングしたため履修できなかった。

僕が漠然と考えているのは昔話における話の展開を何か連想的なものと捉えられないかというもの。それらに対する何らかの手がかりが得られないかと思った次第。たとえば、レヴィ=ストロースの神話分析などはかなり飛躍した連想がされているように感じる。間接的、継続的な連想と言えるかもしれない。

|

2025年3月25日 (火)

ようやくコツがつかめてきたか――KH Corderのコーディングルール作成/記述手順

KH Corder、and条件とシングルクォート「'」の使い方が分かってきた。

とりあえず、

※新規の場合
・[プロジェクト]→[新規]→[参照]で分析したいファイルを指定
※再開する場合
・[プロジェクト]→[開く]で一覧から対象ファイルを選択して[開く]

なお、当分析の場合、分析するテキストは昔話/伝説のあらすじを記したプレーンなテキストファイルで、原則として改行と空白行を削除してひとまとまりの文章として分析にかけている。

もちろん、通常の文章ではそういった下処理は不要である。

KH Corderの仕様で、「一文単位で共起関係を分析する」 or 「改行単位で共起関係を分析する」と選択できる。ちなみに4000字以内で要改行となる。当分析で用いているあらすじは500~2000字ほどのボリュームなのでこれまで制限にひっかかったことはないが。

・[前処理]→[テキストのチェック]
 ※エラーが返される場合がある。特定の半角記号が用いられていること等が原因と思われる。[修正]ボタンをクリックすれば訂正処理を実行してくれる。

・[前処理]→[前処理の実行]

を済ませたら、[ツール]→[抽出語]→[抽出語リスト]で確認する。頻度順におよそ上位100くらいのキーワードが表示される。固有名詞の場合は適切に分節されていない場合がままあるので、事前にこの画面でチェックするといいだろう。

※サブ画面の下の[Excel出力]ボタンをクリックすると、形態素解析された一覧が表形式で表示される。

これらを参照しながらコーディングルールを記述していく。なお、分析するファイルとコーディングルールを記述したファイルは同じフォルダに保存すると参照時の画面遷移の手間が省かれる。

・とりあえず冒頭から読み進め、
・これはというキーワードをピックアップ

*語句A
語句A
*語句B
語句B

といった形で記述していく。「*」以下はキャプションなので随意に記述してよい。共起ネットワークだと、バブルのキャプションとして表示される。

・進むにつれて、or条件などで統合できる語句が出てくるので、それらをまとめていく
・これらを終わりまで進める
・終了したら、or条件、and条件など何らかの条件を付した箇所をカット&ペースで上位にまとめると見やすくなる

or条件については特に難しくないと思うが、

*神社
神社 or お社

といった風に記述すればいいだろう。ひょっとすると「お社」は後述するシングルクォートでくくった方がいいかもしれない。

たとえば「浮布の池」を形態素解析すると「/浮/布/の/池/」と分節されてしまうのだけど、シングルクォートで「'浮布の池'」とくくればいい。無償版の場合、これで固有名詞の問題はクリアできそうだ。

*浮布池
'浮布の池' or 池

and条件は

*いない
いる and ない

といった使い方になるか。動詞の否定形や形容詞の否定形などを指定したい場合に使えるか。これまで使いどころが分からなかった。

[前処理]→[語の抽出結果を確認]でキーワードがどのように分節されているか検索すると結果の一覧が表示される。確認したい行をクリックして選択、画面下の[詳細表示]ボタンをクリックするとサブ画面が表示され、活用形や基本形が確認できる。

※コーディングルールでは基本形を記述する。

たとえば、禁忌を意味する「~してはいけない」の「いけない」は「/いけ/ない/」と分節される。「いけ」は活用形だけど基本形は何だったかな、といった場合、抽出された行をクリックして選択し、左下の[詳細表示]ボタンをクリックする。[詳細表示]→[語の抽出結果:詳細]画面が表示されるので確認すると、「いけ」の基本形は「いける」であることが分かる。

*いけない
いける and ない

と記述すればいい。

かっこ()は

*触れない
( 触る or つく ) and ない

*触れない
( 触る and ない ) or ( つく and ない )

といった使い方をすればいいか。( )の前後に半角の空白を入れるのは盲点であった。

※ただし、否定形「ない」は文中で様々な動詞や修飾語と結びついて結節点の役割を果たしている。共起ネットワークではそういった結節点となっているキーワードを可視化するので、敢えてand条件を指定する必要性は薄いかもしれない。これは今後本格的な分析に入る際の課題である。

※ChaSenやMeCabでは「な」に禁止のニュアンスは認められていないようで(※たとえば古語だと「な……そ」で禁止となる)、KH Corderでも統計処理時には除外されてしまうようだ。[前処理]→[語の取捨選択]で強制抽出する語としてあらかじめ指定しておく必要がある。なお、この指定は前処理の前に行う必要がある。

not条件を付ければ除外指定できるはずだが、当分析ではそこまでの必要はないと判断して使用していない。

 

・一通り完了したら共起ネットワークでどのように描画されるか確認して、随時修正を加えていく

コーディングルールのファイルの記述がひと段落したら、[ツール]→[コーディング]→[共起ネットワーク]を選択して図示してみるのが手っ取り早い。思ったようになっていないと感じたらコーディングルールの記述に問題がある可能性が高い。そこで、コーディングルールの見直しを行っていく。

※コーディングルールの記述に変更を加えたら、サブ画面で[クリア]ボタンをクリック、一旦リセットし、再度[参照]ボタンをクリックしてコーディングルールを記述したファイルを指定する。

当ブログでは分析の対象としているのが昔話/伝説のあらすじで、およそ500~2000字といった少量のボリュームである。テキストのボリュームが少量でも解析は正常に処理されるようだ。

……といった形で進めている。このやり方にも問題はあって、少量のボリュームでも後半はピックアップすることに疲れておざなりになってしまいがちである。

……といった感じである。このケースだとテキストのボリュームが少ないのでピックアップされる語句の数はさほど多くはならないのだけど、テキストが長文となってくるとピックアップされる語句が多くなり過ぎて、描画した際に文字が重なって読みづらくなってしまう場合がある。

・そこで間引くことも考えなければならないが、
・むしろ、それは原データとして残しておいて、
・何らかの意図/狙いを定めたコーディングルールとなるよう、そこから語句をセレクトしていって別ファイルとして保存していくといった方向性で運用してみてもいいかもしれない(※これはまだ試していない)。

※筆者の場合、貰い物ではあるが、約7000字と13000字のインタビュー記事が手持ちの資料としてある。

昔話の場合、「ない」「ぬ」「ん」といった否定詞に注目するといいかもしれない。何らかの属性の否定/肯定、あるいは肯定/否定といった形で転倒される展開となるからだ。

[ツール]→[抽出語]→[KWICコンコーダンス]で検索すると、文中での使用例が一覧で表示される。

 

KH Corderのフォルダには夏目漱石『こころ』がチュートリアルとして用意されている。

*人の死
死後 or 死病 or 死期 or 死因 or 死骸 or 生死 or 自殺 or 殉死 or 頓死 or 変死 or 亡 or 死ぬ or 亡くなる or 殺す or 亡くす or 死

*恋愛
愛 or 恋 or 愛す or 愛情 or 恋人 or 愛人 or 恋愛 or 失恋 or 恋しい

*友情
友達 or 友人 or 旧友 or 親友 or 朋友 or 友 or 級友

*信用・不信
信用 or 信じる or 信ずる
or 不信 or 疑い or 疑惑 or 疑念 or 猜疑 or 狐疑 or 疑問 or 疑い深い or 疑う or 疑る or 警戒

*病気
医者 or 病人 or 病室 or 病院 or 病症 or 病状 or 持病 or 死病 or 主治医 or 精神病 or 仮病 or 病気 or 看病 or 大病 or 病む or 病

といったコーディングルールとなっている。死/愛/友情/不信/病気といった語句に着目して分析を行おうという意図が見て取れる。

ちなみに、対応分析で出てくる「H5」とは何かなと思っていたが、これはヘッダーの見出しレベル5ということであった。つまりHTMLの<H5>タグのことで、本文に相当するようだ。

……手探り状態で進めたので、30話くらい作業を進めてようやく分かってきたかなというところでマニュアルを読み返して、やっと応用事例が思いついた。結局、30話ほどロールバックする羽目となった。

ただ、それらしい図を出力できるようにはなったが、テキストのボリュームが根本的に足りないので、どうしても「恣意的」なものとなってしまう。恣意的と言ってもこれまでの経験と勘で必要そうな単語をピックアップしているだけだが、全体を通してみると僕自身の色が出ている可能性はなきにしもあらず。

まだ下準備の途中なので記事の執筆はだいぶ先だけど、記事をどういう風に書くかはその場にならないと分からない。

量的分析のスキルがないので、基本的には頻出するキーワードがどういう文脈で用いられているか、KWICコンコーダンスなどを活用して読み進めていくという形に落ち着きそうだ。

|

より以前の記事一覧