SPAM一網打尽

回避策を作られるとあれなんだけど、これはおそらく回避不可で効果もそこそこなんで書いてみるテスト。その方法は

  1. メールアドレス追跡用IDをURL内にくっつけてるSPAMを集める
  2. URLだけを抽出
  3. フィルタに学習させる

これの有効なとこは「日本語文字列がどうであれ、同じ追跡用IDがあるかぎりSPAMと判断される」ということ。結構有効。