/ / WinChalow

mecab[topic_extraction]

2005-01-07

わかち書きに mecab を使ってみることにした。
http://chasen.org/~taku/software/mecab/

configure 時のオプションで,
--enable-mutex とすると, マルチスレッド環境でライブラリを用いることがで きます.

コアが4つあるらしいマシンで使うので、これを適用してみた。
% mecab
ほげほげ
ほ      動詞,自立,*,*,五段・ラ行,体言接続特殊2,ほる,ホ,ホ
げ      名詞,接尾,一般,*,*,*,げ,ゲ,ゲ
ほ      動詞,自立,*,*,五段・ラ行,体言接続特殊2,ほる,ホ,ホ
げ      名詞,接尾,一般,*,*,*,げ,ゲ,ゲ
EOS

げんげ
げ      名詞,接尾,一般,*,*,*,げ,ゲ,ゲ
ん      名詞,非自立,一般,*,*,*,ん,ン,ン
げ      名詞,接尾,一般,*,*,*,げ,ゲ,ゲ
EOS

ん〜なるほど。「ん」って名詞だったのか…
というわけで、即日制式採用。これからはmecabだ!

Perl bindingも用意されている。
わかち書きだけなら:
use MeCab;

my $sentence = "太郎はこの本を二郎を見た女性に渡した。";
my $c = new MeCab::Tagger([$0, '-O', 'wakati']);
print $c->parse($sentence);

助詞はいらない、っていうのはどうやるのだろうか。
(2005-01-07 17:53:22)

permlink