중국발 크롤러/스크래퍼/봇 차단하기

Last Updated: 2023년 08월 04일 | | 댓글 남기기

봇 때문에 트래픽이 증가하고 CPU 사용량이 급증하면서 사이트가 느려지거나 다운되는 경우가 있을 수 있습니다. 갑작스럽게 CPU 사용량이 증가하면서 사이트 속도가 크게 느려지는 경우 웹호스팅 업체에 연락하여 원인 파악을 문의할 수 있습니다.

최근 중국발 봇 때문에 피해를 입었다는 글을 커뮤니티에서 접했습니다. 중국 봇들을 차단하는 것이 좋을 것 같아서 구글링하여 중국발 크롤러/스크래퍼/봇을 차단하는 코드를 .htaccess 파일에 추가했습니다.

중국발 크롤러/스크래퍼/봇 차단하기

중국 봇 유입이 증가하여 고민인 경우 "Blocking aggressive Chinese crawlers/scrapers/bots"에서 제시하는 다음과 같은 코드를 .htaccess 파일에 추가할 수 있습니다.

Options +FollowSymLinks
RewriteEngine On
RewriteBase /
RewriteCond %{HTTP_USER_AGENT} Mb2345Browser|LieBaoFast|zh-CN|MicroMessenger|zh_CN|Kinza|Datanyze|serpstatbot|spaziodati|OPPO\sA33|AspiegelBot|aspiegel|PetalBot [NC]
RewriteRule ^ - [F,L]

FTP/SFTP에 접속하여 루트 폴더에 있는 .htaccess 파일에 상기 코드를 추가할 수 있습니다.

이 규칙은 정규표현식(Regular Expression)을 사용하여 다음 문자열 중 하나가 포함된 사용자 에이전트(user agent)를 차단하는 기능을 합니다.

  • Mb2345Browser
  • LieBaoFast
  • zh-CN
  • MicroMessenger
  • zh_CN
  • Kinza
  • OPPO A33
  • Aspeigel
  • PetalBot

맨 위의 두 개 항목은 중국 크롤러들에 의해 흔히 사용되는 것 같다고 하네요. ZH-CN 문자열은 OS 및 인터페이스 언어와 같이 중국어와 관련된 현지화 설정을 가리키고, Micromessneger는 위챗(WeChat)과 관련되었다고 합니다. 그리고 Kinza는 러시아 이메일 스팸과 관련된 것이라고 하네요.

제 블로그 유입을 살펴보면 대부분 방문자들이 우리나라를 비롯하여 일본과 미국에서 유입되고 중국에서는 전혀 유입이 안 되고 있습니다.

중국발 크롤러/스크래퍼/봇 차단하기 - 국가별 사용자
국가별 사용자 (출처: 구글 애널리틱스)

중국에서는 구글 서비스 등 우리가 알고 있는 대부분의 서비스가 차단되고 있습니다.

제 워드프레스 블로그는 중국에서 방문할 가능성은 없는 것 같으므로 상기 코드를 추가하여 중국발 봇들을 차단해도 안전할 것 같습니다. 혹시나 이러한 코드로 인해 문제가 발생할지 몰라서 이 블로그가 호스팅 중인 블루호스트(Bluehost)에 연락하여 위에 제시된 코드를 .htaccess 파일에 추가해도 문제가 없는지에 대해 물어보았습니다. 다행히 코드를 추가해도 된다는 답변을 들었습니다.

물론 중국을 대상으로 상품을 판매하거나 중국인들이 사이트를 방문해야 한다면 이러한 코드를 사용하여 중국 봇들을 차단해서는 안 될 것입니다.

앞서 말씀드렸듯이 서버 과부하로 인해 사이트가 갑자기 느려지거나 트래픽이 많이 소모되는 경우 호스팅 업체에 연락하여 원인을 문의하시기 바랍니다. 이 블로그의 경우 경미하지만 서버 과부하 현상이 발생하여 웹호스팅 상품을 업그레이드했습니다(참고).

참고로 스크래핑(Scraping)은 하나 이상의 웹 사이트에서 데이터를 추출하는 것과 관련되고, 웹 크롤링(Web crawling)은 웹상에서 URL이나 링크를 찾거나 발견하는 것에 대한 것이라고 하네요.

참고


댓글 남기기

Leave a Comment