ChangeLog 最新ページ

PAI - WinChalow

2005-01-18 Tue

活性伝播によるキーワード(2)


時系列の変化を追ってみた。こういうことは、tf・idfのシステムではまず無理だろう。

某研究会の座談会を、発言ごとに時系列で分析し、活性値を継承させてみた。もろもろのチューニングがまだ最適化されていないが、高活性語鋭活性語の上位20語の遷移をみることができる。

この座談会を一言で言えば「2ちゃんねるの印象」となるのだろうか(笑)
(2005-01-18 17:47:58)

2005-01-14 Fri

活性伝播によるキーワード


はてなダイアリーのキーワード自動リンクについての議事録を手製のPAI[2005-01-12]で分析して、高活性語+鋭活性語の上位10個を取り出してみた。

どうやらキーワード・リンクの誤爆が問題になっているらしいことまでは、キーワードだけから読み取れる。

Total: 1707 words
キーワード
リンク
削除
ルール
システム
誤爆
欲しい
多い
人
自動

議事録を見たところ、はてなのシステムというのは、エントリーの時間的変化に応じて適応的にキーワードが自動抽出されるようにはなっていないらしい。そのへんは自動化できずに人がやっているということも、キーワードから読み取れてしまう。

via: たつをの Changelog http://nais.to/~yto/clog/2005-01-13-2.html
(2005-01-14 14:35:20)

2005-01-12 Wed

PAI


MeCab と nGram をインストールしてインフラが整ったところで、PAI のシステムを実装してみた。

PAI は、「活性伝播」を応用したキーワードの抽出アルゴリズムである。TF/IDF などの統計的手法に比べて、時系列の変化が追えるという点に特色があり、ビジネスへの応用もできるらしい。前から気になってはいたのだが、いつのまにか失念していた。正月休み用のネタをさがしていて思い出したわけである。

さっそく、このブログの2004年10月、11月、12月のキーワードを抽出してみる。

2004-10
ブログ, 出, 鮨, ネタ, テスト, 項目, アイテム, 設定, 正しい, 頁, 問題, 世界, バック, トラック, ディレクトリ, 知れ, スタンプ, タイム

2004-11
脳, 地震, 記憶, 話, 人工, サル, 海馬, 出, 強化, バレ, チップ, 入れ, ニガリ, 高血圧, ラジオ, 衛星, 事情

2004-12
正規, 表現, 進む, 巨大ビル, ビル, 六本木, 自転車, コマンド, テスト, ファイル, マクロ, 道, 巨大, バカ, 秀丸, 方, ロボット

とりとめもない、とはこのことか。
まあ、それなりにトピックが読み取れるような気がしなくもない。

TF値に依存しないので、頻度の小さいキーワードでも重要なものが浮かび上がる。また、IDF値がいらないので、コーパスの精度を気にしなくてよい。
リアルタイムとはいいがたいが、それほど遅くはない。
・・・といったところでしょうか。作る前に予想していたより、かなり性能がよかった。

活性伝播の文献検索でインターネットを調べていたところ、クオリア系の「無限退行」アルゴリズムというのもあるらしい。海馬を記憶がぐるぐる回りながら整理されるのに似ていなくもない。これも面白そうだ。そのうちやってみよう。

よそ様で恐縮だが、本家chalowのstationaryカテゴリー30件を無断で分析してみた。
ペン, 円, メモ, ホワイト, ボード, ケース, 整理, ポストイット, ブレスト, 携帯, 購入, 売っ, 使っ, 万年筆, カド, ボールペン, ケシ, ホルダー

トピックが追えているような気がするのは気のせいだろうか。
いくつかのパラメータを変えると、抽出される成分が変化する。このあたりが微妙。
ペン, メモ, ボード, 円, ポスト, ケース, ホワイト, 行っ, カドケシ, 買っ, ホルダー,カド, 使っ, ボールペン, スタンプ, 万年筆, 耳掻き, クリアホルダー, 活用


(2005-01-12 16:09:55)