/2007-04-14에 이어 다시 한 번 걸러진 스팸 기록을 살펴봤습니다. 뭐 딱히 이유가 있는 건 아니고 그냥 궁금해서...
4월15일부터 4월26일 오전11:20분까지니까, 만11.5일 정도로군요.
- 전체 로그 584건 - 50.7/1일
- 트랙백 tcode 패치 4건
- 코멘트 ccode 패치 118건 - 10.2/1일
- 에디트 ecode 패치 0건
- 금지단어 462건 - 40.1/1일
- 코멘트 매크로를 사용한 것 448건, 페이지 직접 수정 또는 트랙백 14건
- "[ u r l =" (띄어쓰기 없이)가 361건으로 1위
- "gatech . edu" 가 34건으로 2위
- 그 외 잡다한 것들이 한 자리 횟수로 등장
/2007-04-14에서는 ccode 패치가 그다지 효과가 없어 보인다고 썼는데, 그래도 코멘트에 대해서는 꽤 많이 잡아주고 있군요. 물론 저 118건의 코멘트 중에는 ccode 검사를 통과했더라도 다시 금지단어 쪽에서 걸러졌을 것들이 있겠습니다만.
유즈모드를 쓰시면서 Perl/정규표현식에 익숙하지 않을 Nyxity님이나 Redica님께 도움이 될까 해서... 제가 사용하는 몇 가지를 적어보면
- (?i)order(\s+|\s+\w+)*online
- order와 online 사이에 임의의 단어들이 들어간 경우를 모두 잡습니다. order 자리에 buy나 다른 걸 쓸 수도 있겠죠.
- (?m).*(http:.+){5,}.*
- 한 줄에 "http:" 가 5번 이상 들어간 경우를 잡습니다. 밑도 끝도 없이 URL만 와르르 적는 경우는 URL 자체가 금지단어 목록에 있지 않으면 대책이 없으니 오늘 추가한 건데... 당연히 스팸이 아닌 경우라도 한 줄에 URL을 5번 이상 적는 경우 금지되어 버립니다. 따라서 횟수를 너무 작게 잡으면 정상적인 글쓰기에 지장이 있을 테고, 너무 많게 잡으면 스팸을 못 막겠죠. 적당히 경험으로 조절해야 하겠습니다.
- http:\/\/[^\n\/]+\.info\b
- http:// 바로 뒤에 호스트이름이 .info로 끝나는 경우만 잡아줍니다. "\.info"라고만 적어주면 URL이 아닌 곳에 쓰인 것도 다 막히니 (당장 이 글도 저장할 수 없었을테고) 아무래도 불편하다 싶은 경우에 저렇게 써 주면 좀 낫겠죠.
Comments & Trackbacks
오오 감사합니다.
감사합니다. 오늘도 여전히 스팸처리를 하느라... 위 대로 적어놓으면 많은 도움이 되겠습니다. ^^ -- Redica 2007-4-27 9:19 am
주인장분류
<< /2007-04-29 (2007-04-29)[p]  | /2007-04-26 (2007-04-26) | /7년 (2007-04-23)[n] >>
|