頻出文例で覚える自然言語処理問題
自然言語処理の教科書を読んでいると、それぞれの問題に対して大抵「お決まり」の文が出てきていちいち面白いのでまとめました。
Bank
Bankには「銀行」と「土手」の2つの意味があり、翻訳をする際などは文脈から正しく意味を取ってあげる必要があります。これを語義の曖昧性解消(Word Sense Disambiguation/WSD)といって、"bank"はWSDを論じる際必ずといって例に上がります。WSDのアルゴリズムとしては、曖昧性を解消したい単語の周辺にある単語を見る方法があります("bank"の場合、周辺に"finance"や"investment"が出てくれば「銀行」、"river"や"shore"が出てくれば「土手」と判断できる。)
ちなみに僕は自然言語処理の教科書で初めて"bank"に「土手」の意味があることを知りました。(他にもそういう人がいると信じています)
Book that flight.
普通、文の構造を取る前には単語の品詞を推定してあげる必要があります。例の場合"book"は名詞ではなく動詞であると理解しなければなりません。これを品詞タグ付け(Part-of-Speech Tagging/POS tagging)と言います。
Time flies like an arrow.
この文は、
http://ja.wikipedia.org/wiki/%E8%87%AA%E7%84%B6%E8%A8%80%E8%AA%9E%E5%87%A6%E7%90%86
- 典型的には、比喩として、「時間が矢のように素早く過ぎる」と解釈する。
- 「空を飛ぶ昆虫の速度を矢の速度を測るように測定せよ」つまり (You should) time flies as you would (time) an arrow. と解釈する。
- 「矢が空を飛ぶ昆虫の速度を測るように、あなたが空を飛ぶ昆虫の速度を測定せよ」つまり Time flies in the same way that an arrow would (time them). と解釈する。
- 「矢のように空を飛ぶ昆虫の速度を測定せよ」つまり Time those flies that are like arrows と解釈する。
- 「"time-flies"(時バエ)という種類の昆虫は1つの矢を好む」この解釈には集合的な解釈と個別的解釈がありうる。
- 「TIMEという雑誌は、投げると直線的な軌跡を描く」
と多数の解釈ができるため、文構造の曖昧性解消の例によく用いられます。
I saw the girl with the telescope.
この文には「私は望遠鏡で少女を見た」と「私は望遠鏡を持った女の子を見た」の2つの解釈ができます。このような前置詞句がある文では、それが動詞句か名詞句のどちらを修飾するのか判断する必要があります。これを前置詞句付加(Prepositional Phrase Attachment/PP attachment)といって、文構造を解析する上で最も難しい部分の1つとなっています(人間にも難しいときがありますしね。)付加手法としては、前置詞と動詞、前置詞と名詞の組み合わせを統計的に取って、よりもっともらしい方にくっつける手法があります。
望遠鏡で女の子を覗いちゃダメだと思います。
I am a freshman advertising and marketing major.
この文は「私は広告とマーケティング専攻の1年生です」と解釈するのが一般的ですが、文構造的には「私は広告する1年生とマーケティング専攻です」のように解釈することもできます。これを並列句構造解析(Coordination Structure Analysis)といって、こちらも文構造を解析する上で最も難しい部分の1つとなっています。解析手法としては、並列句の対称性(例の場合、-ingという接頭辞)に着目する手法があります。
最後に
まだまだ沢山例があると思われるのであったら是非教えてください。あと適当な説明なので鵜呑みにしないでください><