MeCabで「こりゃぁおいしい。」を形態素解析

MeCabChasenの違いって今まで良く分かってなかったんですが、改めて見ると色々やってるんですね。実装とか学習方式だけ違うのかと思っていたらそうでもなさそうです。

ということを思ったのは「こりゃぁおいしい。」の形態素解析結果。MeCabChasenの結果はそれぞれ次のようになります。

% echo "こりゃぁおいしい。"|mecab
こりゃ  感動詞,*,*,*,*,*,こりゃ,コリャ,コリャ
ぁおいしい      名詞,一般,*,*,*,*,*
。      記号,句点,*,*,*,*,。,。,。
EOS

% echo "こりゃぁおいしい。"|chasen
こりゃ  コリャ  こりゃ  感動詞
ぁ                      未知語
おいしい        オイシイ        おいしい        形容詞-自立     形容詞・イ段基本形
。      。      。      記号-句点
EOS

これだけ見ればChasenの解析結果の方が良いわけですが、これってきっとMeCabの未知語処理のせいですよね。難しいよなぁ。