ことば・辞書・日本語文法(2)

元日本語教師です。ことばと、(日本語)辞書と、日本語の文法について、勝手なことを書いていきます。

二つの(書きことば)コーパス

前回の記事で、書きことばコーパスで「乳房を+動詞」のコロケーションを見てみたら、という話を書きました。

  (乳房を)切除する 挟む 圧迫する (いる) 残す 再建する 作る

という動詞が並んでいて、ちょっとびっくりした、と書きました。

このとき参考にしたコーパスは、『筑波ウェブコーパス』(Tsukuba Web Corpus: TWC)で、NINJAL-LWP for TWCというツールを使って検索しました。いつも使っているものです。

もう一つ、以前からよく使っているコーパスがあり、そちらは『現代日本語書き言葉均衡コーパス』(Balanced Corpus of Contenporary Written Japanese: BCCWJ)というもので、BCCWJと略称されます。国立国語研究所(国研)のコーパスです。検索にはNINJAL-LWP for BCCWJ(NLB)を使います。

つくばのコーパスは、厳密に言えば「書きことばコーパス」ではないのかもしれませんが、おそらく基本的にはそうなんだろうと思って、国研のコーパスと同じように「書きことばコーパス」という言い方でいつも紹介しています。

 

さて、「乳房を+動詞」の話に戻ります。

つくばのコーパスでは乳ガンの検査・手術関係の語が並んでいましたが、これをBCCWJで検索してみると、ずいぶん違った結果になりました。

 

  BCCWJ
   (乳房を)をつかむ もむ 失う もみしだく 吸う 持つ まさぐる 含む

 

ふむ。実際の例文を見ていくと、「失う」以外は性的な場面を描写する小説の例が多くを占めています。

どうしてこんなに違うのか。今まで、つくばでも国研でもほぼ同じような結果になるのだろうと思っていて、その時の気分でどちらかを使っていたので、この結果の違いにはかなりびっくりしました。

前回の記事でも紹介した複合名詞を調べてみると、

 

  「乳房+名詞」
    TWC
      乳房温存 切除 再建 マッサージ 全摘 撮影 専用
    BCCWJ
        乳房全摘 切除 X線 温存 再建 組織

 

こちらは似たような結果になりました。小説では「乳房」の複合名詞はあまり使われないのですね。

では、「胸」ではどうかと思って、調べてみました。

 

  「胸を+動詞」
    TWC
      を張る 打つ なでおろす 膨らむ 痛める 触る 締め付ける 開く
       踊る(踊らせる) 刺す 叩く
    BCCWJ
      を張る なでおろす 打つ 叩く 締め付ける 刺す 痛める 膨らむ
       踊る ときめく

 

こちらも、同じような結果になりました。

他にもいくつかの動詞と名詞を調べてみたのですが、やはり、つくばも国研も、基本的には同じような結果が出るようです。

では、なぜ「乳房を+動詞」では大きな違いが出たのか。
私には、謎、です。