오픈AI 웹크롤러 'GPT봇' 차단하기

Last Updated: 2024년 03월 13일 | | 댓글 남기기

챗GPT로 유명한 OpenAI는 최근 새로운 웹 크롤러인 GPTBot을 공개했습니다. OpenAI는 GPT봇을 사용하여 웹을 크롤링하고 자사의 AI 기능(예: ChatGPT)에 지식을 습득하여 질문(또는 프롬프트)에 대한 AI 생성 답변을 제공합니다.

GPT봇이 내 사이트를 크롤링하지 못하도록 차단하고 싶은 경우 robots.txt 파일에 GPTBot을 차단하는 코드를 추가하여 내 사이트에 GPT봇이 접근하지 못하도록 차단할 수 있습니다.

오픈AI 웹크롤러 GPT봇 차단하기

오픈AI 웹크롤러 'GPT봇' 차단하기

Useragent

GPTBot의 사용자 에이전트 토큰은 “GPTBot”입니다. 전체 user-agent 문자열은 “Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)”입니다.

Robots.txt에서 GPTBot 차단하기

robots.txt를 사용하여 GPTBot이 내 사이트 전체 또는 일부에 접근을 차단할 수 있습니다. 내 사이트의 robots.txt에 GPTBot이 액세스하지 못하도록 막고 싶은 경우 다음과 같은 코드를 사용할 수 있습니다.

User-agent: GPTBot
Disallow: /

GPTBot이 사이트의 일부에만 액세스하도록 허용하려는 경우 다음과 같은 GPTBot 토큰을 사이트의 robots.txt 파일에 추가할 수 있습니다.

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

robots.txt 파일에 대한 자세한 내용은 다음 글을 참고해 보세요:

GPTBot에 대한 자세한 정보는 GPTBot 문서(영문)를 참조할 수 있습니다.

GPT봇이 사용하는 IP 주소

OpenAI는 또한 GPT봇이 사용하는 IP 범위를 발표했습니다. 시간이 지나면서 IP 주소가 추가될 것으로 보입니다. 2023년 8월 11일 현재 IP 범위:

20.15.240.64/28
20.15.240.80/28
20.15.240.96/28
20.15.240.176/28
20.15.241.0/28
20.15.242.128/28
20.15.242.144/28
20.15.242.192/28
40.83.2.64/28

구글 제미나이(Gemini) 봇 차단하기

구글 제미나이(Gemini), Vertex AI가 내 사이트에 접근하지 못하도록 차단하고 싶은 경우 Google-Extended를 차단하도록 robots.txt 파일에 코드를 추가할 수 있습니다.

마치며

OpenAI가 여러분의 콘텐츠를 어떤 식으로든 사용하는 것을 원치 않는 경우 GPT봇이 사이트를 크롤링하는 것을 금지할 수 있습니다. 위에서 제시한 방법은 구글봇(GoogleBot), 빙봇(BingBot) 또는 기타 웹 크롤러를 차단하기 위해 사용하는 것과 동일한 방식입니다.

GPT봇이 이 워드프레스 사이트까지 방문할지는 모르겠지만 저는 robots.txt 파일에 GPT봇을 차단하는 코드를 추가했습니다.

참고


댓글 남기기

Leave a Comment