わかち書きに mecab を使ってみることにした。
http://chasen.org/~taku/software/mecab/
configure 時のオプションで,
--enable-mutex とすると, マルチスレッド環境でライブラリを用いることがで きます.
コアが4つあるらしいマシンで使うので、これを適用してみた。
% mecab
ほげほげ
ほ 動詞,自立,*,*,五段・ラ行,体言接続特殊2,ほる,ホ,ホ
げ 名詞,接尾,一般,*,*,*,げ,ゲ,ゲ
ほ 動詞,自立,*,*,五段・ラ行,体言接続特殊2,ほる,ホ,ホ
げ 名詞,接尾,一般,*,*,*,げ,ゲ,ゲ
EOS
げんげ
げ 名詞,接尾,一般,*,*,*,げ,ゲ,ゲ
ん 名詞,非自立,一般,*,*,*,ん,ン,ン
げ 名詞,接尾,一般,*,*,*,げ,ゲ,ゲ
EOS
ん〜なるほど。「ん」って名詞だったのか…
というわけで、即日制式採用。これからはmecabだ!
Perl bindingも用意されている。
わかち書きだけなら:
use MeCab;
my $sentence = "太郎はこの本を二郎を見た女性に渡した。";
my $c = new MeCab::Tagger([$0, '-O', 'wakati']);
print $c->parse($sentence);
助詞はいらない、っていうのはどうやるのだろうか。
(2005-01-07 17:53:22)