MeCab と nGram をインストールしてインフラが整ったところで、PAI のシステムを実装してみた。
PAI は、「活性伝播」を応用したキーワードの抽出アルゴリズムである。TF/IDF などの統計的手法に比べて、時系列の変化が追えるという点に特色があり、ビジネスへの応用もできるらしい。前から気になってはいたのだが、いつのまにか失念していた。正月休み用のネタをさがしていて思い出したわけである。
さっそく、このブログの2004年10月、11月、12月のキーワードを抽出してみる。
2004-10
ブログ, 出, 鮨, ネタ, テスト, 項目, アイテム, 設定, 正しい, 頁, 問題, 世界, バック, トラック, ディレクトリ, 知れ, スタンプ, タイム
2004-11
脳, 地震, 記憶, 話, 人工, サル, 海馬, 出, 強化, バレ, チップ, 入れ, ニガリ, 高血圧, ラジオ, 衛星, 事情
2004-12
正規, 表現, 進む, 巨大ビル, ビル, 六本木, 自転車, コマンド, テスト, ファイル, マクロ, 道, 巨大, バカ, 秀丸, 方, ロボット
ペン, 円, メモ, ホワイト, ボード, ケース, 整理, ポストイット, ブレスト, 携帯, 購入, 売っ, 使っ, 万年筆, カド, ボールペン, ケシ, ホルダー
ペン, メモ, ボード, 円, ポスト, ケース, ホワイト, 行っ, カドケシ, 買っ, ホルダー,カド, 使っ, ボールペン, スタンプ, 万年筆, 耳掻き, クリアホルダー, 活用