日記
キーワードでの関連づけEdit

GETしてstriptagしてChasenで形態素解析して名詞らしき単語だけを抽出し、それをベースに解析すれば、日記本文中に使われているキーワードを使った関係図の作成も、なんとかなりそうな気がしてきた。

ただ、よく使われる一般名詞と固有名詞をどうやって差別化するかが難しい。単純に出現した単語でリンクを張っていくのではなく、その単語のweb全体での出現頻度の増減を監視して、「増減が激しかったキーワード=話題のキーワード」と捉えることで、なんとかなるかな? あと、出現数があまりにも多すぎる単語は、一般名詞として解析対象から捨てるようにしたり。

というのは、一つの単語(名詞)=キーワードという単純な場合に有効そうだけど、実際のことを考えると、単語の組み合わせという形で表現される話題が非常に多そうだ。そうなると、あるページで出現した単語の組み合わせがほかのページでも使われているか、という多対多の組み合わせ数をカウントする処理が必要になって、マシンパワーを激しく食いそうな気が。自動で全パターンをカウントして解析するのはつらいかな。

Published At2002-04-25 00:00Updated At2002-04-25 00:00