前の日 / 次の日 / 最新

WinChalow

2005 : Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
2004 : Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec

2005-01-12 Wed

PAI


MeCab と nGram をインストールしてインフラが整ったところで、PAI のシステムを実装してみた。

PAI は、「活性伝播」を応用したキーワードの抽出アルゴリズムである。TF/IDF などの統計的手法に比べて、時系列の変化が追えるという点に特色があり、ビジネスへの応用もできるらしい。前から気になってはいたのだが、いつのまにか失念していた。正月休み用のネタをさがしていて思い出したわけである。

さっそく、このブログの2004年10月、11月、12月のキーワードを抽出してみる。

2004-10
ブログ, 出, 鮨, ネタ, テスト, 項目, アイテム, 設定, 正しい, 頁, 問題, 世界, バック, トラック, ディレクトリ, 知れ, スタンプ, タイム

2004-11
脳, 地震, 記憶, 話, 人工, サル, 海馬, 出, 強化, バレ, チップ, 入れ, ニガリ, 高血圧, ラジオ, 衛星, 事情

2004-12
正規, 表現, 進む, 巨大ビル, ビル, 六本木, 自転車, コマンド, テスト, ファイル, マクロ, 道, 巨大, バカ, 秀丸, 方, ロボット

とりとめもない、とはこのことか。
まあ、それなりにトピックが読み取れるような気がしなくもない。

TF値に依存しないので、頻度の小さいキーワードでも重要なものが浮かび上がる。また、IDF値がいらないので、コーパスの精度を気にしなくてよい。
リアルタイムとはいいがたいが、それほど遅くはない。
・・・といったところでしょうか。作る前に予想していたより、かなり性能がよかった。

活性伝播の文献検索でインターネットを調べていたところ、クオリア系の「無限退行」アルゴリズムというのもあるらしい。海馬を記憶がぐるぐる回りながら整理されるのに似ていなくもない。これも面白そうだ。そのうちやってみよう。

よそ様で恐縮だが、本家chalowのstationaryカテゴリー30件を無断で分析してみた。
ペン, 円, メモ, ホワイト, ボード, ケース, 整理, ポストイット, ブレスト, 携帯, 購入, 売っ, 使っ, 万年筆, カド, ボールペン, ケシ, ホルダー

トピックが追えているような気がするのは気のせいだろうか。
いくつかのパラメータを変えると、抽出される成分が変化する。このあたりが微妙。
ペン, メモ, ボード, 円, ポスト, ケース, ホワイト, 行っ, カドケシ, 買っ, ホルダー,カド, 使っ, ボールペン, スタンプ, 万年筆, 耳掻き, クリアホルダー, 活用


(2005-01-12 16:09:55)
Referrer (Inside): [2005-01-14-2]

2005-01 / 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31