MeCabで「こりゃぁおいしい。」を形態素解析
MeCabとChasenの違いって今まで良く分かってなかったんですが、改めて見ると色々やってるんですね。実装とか学習方式だけ違うのかと思っていたらそうでもなさそうです。
ということを思ったのは「こりゃぁおいしい。」の形態素解析結果。MeCabとChasenの結果はそれぞれ次のようになります。
% echo "こりゃぁおいしい。"|mecab こりゃ 感動詞,*,*,*,*,*,こりゃ,コリャ,コリャ ぁおいしい 名詞,一般,*,*,*,*,* 。 記号,句点,*,*,*,*,。,。,。 EOS % echo "こりゃぁおいしい。"|chasen こりゃ コリャ こりゃ 感動詞 ぁ 未知語 おいしい オイシイ おいしい 形容詞-自立 形容詞・イ段基本形 。 。 。 記号-句点 EOS
これだけ見ればChasenの解析結果の方が良いわけですが、これってきっとMeCabの未知語処理のせいですよね。難しいよなぁ。