구글 제미나이(Gemini), Vertex AI 크롤러 봇 차단하기

Last Updated: 2024년 04월 15일 | , | 댓글 남기기

챗GPT, 구글 제미나이(Gemini) 등 생성형 AI가 내 블로그 콘텐츠에 접근하지 못하도록 관련 봇들을 robots.txt를 통해 차단할 수 있습니다.

ChatGPT 봇을 차단하는 방법에 대하여 이 블로그에서 다룬 적이 있습니다. 구글 제미나이(Gemini), Vertext AI 등도 내 사이트에 액세스하지 못하도록 차단할 수 있습니다.

구글 제미나이(Gemini), Vertex AI 크롤러 봇 차단하기

챗GPT의 GPTBot을 차단하는 방법은 다음 글에서 확인할 수 있습니다.

2023년 9월, 구글은 제미나이(이전 명칭 Bard, 바드)와 Vertex AI가 사이트의 콘텐츠에 접근하는 것을 제어할 수 있는 새로운 "독립적인 제품 토큰"인 Google-Extended를 발표했습니다.

오늘 우리는 웹 퍼블리셔가 운영하는 사이트가 Bard와 Vertext AI 생성형 API(이러한 제품에 기반한 추후 생성형 모델 포함) 의 개선에 도움을 줄지 여부를 관리할 수 있도록 제어하는 새로운 Google-Extended를 발표합니다. 사이트의 콘텐츠에 대한 접근(액세스)를 제어하는 Google-Extended를 사용하여 웹 사이트 관리자는 이러한 AI 모델이 시간이 지남에 따라 더 정확하고 기능을 더욱 향상시키는 데 도움을 줄지 여부를 선택할 수 있습니다.

출처: 구글 블로그 문서 An update on web publisher controls

Google-Extended를 완전히 차단하려면 robots.txt 파일에 다음 라인을 추가하면 됩니다.

User-agent: Google-Extended
Disallow: /

위의 코드의 유용성에 대하여 논란이 있는 것 같습니다. 상기 코드를 추가할 경우 구글 트래픽에 부정적인 영향을 미친다는 의견도 있습니다(참고).

상기 코드를 추가하는 대신 GPT봇을 차단하는 다음 코드만 추가하는 것도 고려할 수 있습니다.

User-agent: GPTBot
Disallow: /

robots.txt 파일을 수정하려면 FTP에 접속할 수 있어야 합니다.

워드프레스를 사용하는 경우 Rank Math SEO 등의 SEO 플러그인에서 robots.txt 파일을 편집할 수도 있습니다.

워드프레스 robots.txt 파일 편집하기

웹 서버에 robots.txt 파일을 업로드한 경우에는 다음 그림과 같이 "robots.txt 파일을 쓸 수 없습니다" 경고가 표시되면서 robots.txt 파일 편집이 불가능하게 됩니다.

구글 제미나이(Gemini), Vertex AI 크롤러 봇 차단하기 2

(Rank Math SEO에서는 .htaccess 파일도 편집이 가능합니다.)

이 경우 FTP에 접속하여 robots.txt 파일을 직접 편집할 수 있습니다.

또한, WP Robots Txt와 같은 플러그인을 사용하여 FTP에 접속하지 않고 robots.txt 파일을 워드프레스 알림판에서 수정하는 것도 가능합니다. 하지만 이 기능 때문에 플러그인을 굳이 설치할 필요는 없는 것 같습니다.

참고로 티스토리 블로그의 경우 사용자가 robots.txt 파일에 접근할 수 없으므로 수정하는 것이 불가능합니다. 티스토리 사이트의 robots.txt 파일을 확인하려면 티스토리-사이트-주소/robots.txt에 접속하면 됩니다. 현재 티스토리 robots.txt 파일은 다음과 같은 항목들로 구성되어 있습니다.

User-agent: *
Disallow: /guestbook
Disallow: /m/guestbook
Disallow: /manage
Disallow: /owner
Disallow: /admin
Disallow: /search
Disallow: /m/search

User-agent: bingbot
Crawl-delay: 20

참고


댓글 남기기

Leave a Comment