Feed

場当たり的スパムフィルター

Posted on 5月 17th, 2010 in 倉庫 by apj

 ルーマニアあたりのドメインから来るスパムが鬱陶しい件。
 2バイト文字で送りつけられてくるため、blogの機能である、英文のみの投稿を弾く設定では防ぐことができないみたい。多分、blog側が2バイト文字の有無で判別してるからだろう。
 通常、日本語では使わない文字なので、spam投稿の本文を見て、頻出する文字を単独でNGワードにしてみたら、それなりに防げている。
 普通に変換しても候補にも出てこない文字なので、こういうNGワード設定にしても、多分不都合は出ないだろう。


ここからは旧ブログのコメントです。


by 酔うぞ at 2010-05-02 02:41:02
なるほど

そういう手がありますか。

しかし、「頻出する文字」を調べるのも面倒だな。


by apj at 2010-05-32 03:25:32
だからテキトー

 1通受け取ったヤツを眺めて、いくつも出て来ている文字(何と読むかわからないが)をテキトーに数文字別個に設定するだけですって。
 SPAMの内容だって読めないのだけど、大体、SPAMで送られてくる内容は万国共通ということは、どの国の言葉だって、SPAM頻出単語てのが決まってくるだろうと。
 だから、目立った文字を何文字か突っ込んでおけば、大体却下できるんじゃないかと。

 ちょっと前のエントリーのコメント一覧がspamで上に上がってきて、この手をつかったらそれ以後spamコメントがついてないので……。以前は、一度来始めるとしつこく同じエントリーに同じ言語で投稿されてたんだけど、今回はうまくいったのかなぁ、と。