Academicというカテゴリーがこのブログにあるのを忘れかけてました。
アカデミックな部分も含めて留学生活、という実感なので。
「言語統計」が何なのか、ちょっと透明化してみる意味も含めて、ファイナルプロジェクト関連の記事を書いてみることにします。
いよいよラスト・クラスまで1か月を切ったところで、期末課題が発覚しました。
そういえば、言語統計のクラスに「ファイナルプロジェクト、18%」という表記があったなー、
ということを思い出しました。
結局今残ってる受講者の大半はPhD課程の学生なので、プロジェクトに関しての授業中の説明は一切なし。
でも、それぞれに動き始めているみたいです。なんとも怖いですねー。
日本に居る
言語学仲間の提案を受けて(相談を持ち込んで
12時間で返信をくれるあたり、すごいコミュニティーですよね

。笑)、「
音象徴 (Sound Symbolism)」を統計的に検定してみる、というプロジェクトをやってみることにしました。ぱっと聞いたところで、まさに「
カイ二乗検定」の出番というテーマじゃん、という直観が走ったので。
1か月という期間でどこまで実現可能なのか、難しいところですが、理想はこんな感じです。
【仮説】語の始めにくる母音の性質と、単語の意味につながりがある。
閉鎖的な母音(日本語で言えば、「い」、「う」)の音は「小さい」イメージの単語、
口を開けて発音する母音(日本語で言えば「あ」、「お」)の音は「大きい」イメージの単語
に多くみられるのではないか?
(「ちいさい」vs「おおきい」がその例ですよね。)
【検証方法】1.日本語(または英語)の辞書のデータベースをコーパスとして入手、
cvs形式などデータ操作可能な形に変換。
2.単語をリストアップ、始めの母音ごとにタグをつける
3.「小さい」、「大きい」の意味のある語にタグをつける
4.contingency tableを作成、
カイ二乗検定を用いて検定
実際はこの過程で詰めなければならない部分が山積みですが、大まかにはこういう流れでまとめていければいいかな、と思います。
1はテクニカルサポートに頼ることになりそう、2・3はエクセルとコンコーダンサーを使って格闘、4は「R」を使って計算、ビジュアルに表現する方法を考えるという感じです。
コーパスを操作できる形にまとめる作業が一番大変そうです。
個人的には、おそらく統計的有意な差は出ないだろう、と予想してますが(何しろ検定基準ってなかなか厳しいので。)、出たら面白い、というのは確かですね。夢があります。
【先行研究】とりあえず、3冊スキミングしてみます。
日本でも何度となくお世話になってますが、こちらのライブラリーにあるものは少しバージョンが古いみたいです。事典はコンパクトにまとまっているので取りかかりにはいいはず。
googleとかlibraryのデータベースとか、色々いじってみたところこれが権威、という雰囲気です。
日本語を素材にする可能性が高いので。(母音が5つしかないし、スペリングと一致しているので英語よりデータ操作上すっきりしているはず。)
とりあえず、こんな感じのスタートです。
まずは、先行研究に目を通しながら図書館のアシスタントとコンタクトを取るところから。