日記
公開spam、ham収集アドレス (13:51)Edit

最近クライアント環境でPOPFileを使うのはやめて、サーバー上のSpamAssassinでspam判別を行うようにした。

ただそれだと人間の意志でspam、hamの情報を学習させるのが面倒くさい。そこで、学習データ蓄積用にspam収集専用アドレスとham(not spam)収集専用アドレスを用意した。

spamだと認識されなかったspamメールはspam収集専用アドレスに、spamじゃないのにspamだと認識されたメールはham収集専用アドレスに転送するようにしている。

サーバーサイドではデイリーでそれぞれのMaildirの中身を学習するようにしている。なかなか効率がいい。会社のサーバーにも同じ仕組みを導入して、多人数で学習させるとさらに効果が高そうだ。

ただ、個人とか会社とかみたいなある程度信頼がおける範囲で、そのような仕組みを導入する分にはいいけど、これをたとえば公に公開して、その学習データ(bayes_journal、bayes_seen、bayes_toksだけでいいのかな?)を配信したりするとどうなるだろう。きちんと正しくspam判別機能が育っていくのか、それともいたずらや間違いメールなどで正しくないspam判別機能になってしまうのか。

とか考えていたら、そういえばGmailも似たような仕組みを持っていることを思い出した。Gmailもユーザーが勝手にspam/非spamを申告する仕組みだし、たぶんその情報を使って学習をかけているよな(ベイジアンかどうかはわからないけど。っつーかもしかしたらそこに大量文書の中から類似文書を検索する仕組みを利用していたりして)。

でもあそこの場合は、ユーザーが正しく申告しないと、自分たちの使い勝手に跳ね返ってくるから、ある程度正しい申告をさせる強制力がある。単にメールアドレスを公開するだけだと、そういう強制力が働かないから、Gmailよりもリスクが大きいかな。

Published At2004-07-16 00:00Updated At2004-07-16 00:00