ChangeLog 最新ページ

topic_extraction - WinChalow

2005-01-07 Fri

mecab


わかち書きに mecab を使ってみることにした。
http://chasen.org/~taku/software/mecab/

configure 時のオプションで,
--enable-mutex とすると, マルチスレッド環境でライブラリを用いることがで きます.

コアが4つあるらしいマシンで使うので、これを適用してみた。
% mecab
ほげほげ
ほ      動詞,自立,*,*,五段・ラ行,体言接続特殊2,ほる,ホ,ホ
げ      名詞,接尾,一般,*,*,*,げ,ゲ,ゲ
ほ      動詞,自立,*,*,五段・ラ行,体言接続特殊2,ほる,ホ,ホ
げ      名詞,接尾,一般,*,*,*,げ,ゲ,ゲ
EOS

げんげ
げ      名詞,接尾,一般,*,*,*,げ,ゲ,ゲ
ん      名詞,非自立,一般,*,*,*,ん,ン,ン
げ      名詞,接尾,一般,*,*,*,げ,ゲ,ゲ
EOS

ん〜なるほど。「ん」って名詞だったのか…
というわけで、即日制式採用。これからはmecabだ!

Perl bindingも用意されている。
わかち書きだけなら:
use MeCab;

my $sentence = "太郎はこの本を二郎を見た女性に渡した。";
my $c = new MeCab::Tagger([$0, '-O', 'wakati']);
print $c->parse($sentence);

助詞はいらない、っていうのはどうやるのだろうか。
(2005-01-07 17:53:22)

2005-01-06 Thu

ngramツール


Statistical Language Modeling Toolkit
http://svr-www.eng.cam.ac.uk/~prc14/toolkit.html
昔からおなじみの枯れたキット。Cで書かれているので高速だが、要コンパイル。

Pure Perl版:
http://search.cpan.org/~btmcinnes/Text-Positional-Ngram-0.3/Ngram.pm
コーパスが小さければこれの方が使いやすいかもしれないのだが、実際に使ってみたらCPANで☆がゼロというのを納得。ドキュメントがわけわからず。仕様も妙。一応ちゃんと動いてはいるが…
(2005-01-06 16:46:02)