IT 리뷰/ChatGPT

ChatGPT AI크롤러 차단 - 챗지피티, 빙봇, 등등

노랗 2024. 1. 3. 15:25
반응형

세계적인 웹사이트 중 26%가 ChatGPT를 차단하고 있다는 결과가 AI와 표절 탐지 회사인 Originality.ai에 의해 발표되었습니다. 이 조사는 뉴욕타임스, CNN, 더가디언, USA투데이, 로이터통신, 워싱턴포스트, LA타임스, NBC, CBS, ESPN 등을 포함한 뉴스 사이트와 핀터레스트, 아마존, 셔터스톡, 텀블러 등을 포함한 다양한 웹사이트를 대상으로 진행되었습니다.

2023년 9월 22일 기준으로 뉴스 사이트에서는 뉴욕타임스, CNN, 더가디언, USA투데이, 로이터통신, 워싱턴포스트, LA타임스, NBC, CBS, ESPN 등이 ChatGPT봇을 차단하는 것으로 확인되었습니다. 또한, 뉴스 사이트 이외에도 핀터레스트, 아마존, 셔터스톡, 텀블러 등이 ChatGPT봇을 차단했습니다. 구글은 9월 28일에 발표한 AI봇 역시 호주 ABC방송과 프랑스 공영 방송인 France Blue에서 차단된 것으로 나타났으며 조사 결과는 지속적으로 업데이트되고 있으며, 이러한 웹사이트 차단 현상은 계속해서 변화하고 있습니다.

웹사이트 운영자들은 robots.txt를 통해 AI봇의 접근을 차단하는 방법을 택하고 있습니다. 테크 기업들은 지난 8월부터 이러한 방법을 발표하고 있으며, OpenAI는 챗GPT 차단 방법을 발표했고, 마이크로소프트와 구글은 각각 빙봇과 바드 차단 방법을 9월에 발표했습니다.

검색엔진 ChatGPT 봇 차단 필요성

검색엔진 최적화 측면에서 CHATGPT 크롤러를 차단하는 것은 중요한 결정입니다. 이는 크게 세 가지 이유에서 나타납니다. 첫째로, CHATGPT 크롤러의 과도한 활동으로 인한 서버 부하 방지가 있습니다. 크롤러가 너무 많은 요청을 보내면 서버는 이를 처리하느라 과부하 상태에 놓일 수 있습니다. robots.txt 파일을 적용하여 크롤링을 제한함으로써 불필요한 부하를 방지하고 웹사이트의 안정성을 유지할 수 있습니다.

두 번째로, 검색엔진 크롤러의 일일 요청 한도를 효과적으로 관리하기 위한 크롤 버짓 (또는 크롤링 예산) 관리가 있습니다. robots.txt를 통해 특정 페이지 또는 디렉토리의 크롤링을 차단하면, 검색엔진은 더 중요한 페이지에 집중할 수 있습니다. 이는 검색결과에 최신 및 중요한 정보를 보다 빠르게 반영하고 유용한 콘텐츠를 놓치지 않도록 도와줍니다.

세 번째로, 검색엔진에게 사이트맵의 위치를 명시적으로 제공하여 웹사이트의 모든 콘텐츠가 빠르게 발견되도록 돕는 것이 있습니다. robots.txt 파일을 활용하여 사이트맵 디렉토리를 언급하면 검색엔진 크롤러는 해당 사이트맵을 빠르게 찾아 웹사이트의 모든 페이지를 효과적으로 수집할 수 있습니다.

워드프레스 Robots.TXT GPTBOT 차단

 

워드프레스 Robots.txt 수정 편집방법 2가지

워드프레스 Robots.txt 수정 편집방법 2가지 워드프레스를 관리하면서 검색엔진에 노출을 하기 위해 가장 중요한것은 바로 각 웹마스터도구에서 검색엔진 로봇이 자유롭게 들어와 수집이 가능하

jab-guyver.co.kr

robots.txt를 활용하여 ChatGPT봇의 전체 또는 일부 접근을 차단할 수 있습니다. 예를 들어, 다음과 같은 코드를 사용하여 GPTBot의 전체 액세스를 차단할 수 있으며 아쉽게도 티스토리의 경우 별도의 Robots.txt 파일을 수정할 수 없기 때문에 현재로서는 티스토리는 ChatGPT 유입을 차단할 방법이 없습니다.

User-agent: GPTBot
Disallow: /

또는 GPTBot이 사이트의 일부에만 액세스하도록 허용하려면 다음과 같이 코드를 작성할 수 있습니다.

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

또한, OpenAI는 ChatGPT봇이 사용하는 IP 주소 범위를 공개하고 있으며, 이 정보는 지속적으로 업데이트됩니다. 만약 OpenAI가 사용자의 콘텐츠를 활용하지 않길 원한다면, 위에서 제시한 방법을 통해 GPT봇의 사이트 크롤링을 금지할 수 있으며 워드프레스 사용자라면 아래 Block ChatGPT 플러그인을 통해 AI클로러 차단할 수 있습니다.

 

Block Chat GPT via robots.txt 플러그인 — WordPress.com

 

wordpress.com

이 플러그인은 웹 사이트를 크롤링하기 위해 ChatGPT의 플러그인에서 사용되는 OpenAI ChatGPT-User 봇을 차단하기 위해 파일이 서버에 물리적으로 존재하지 않는 경우 WordPress가 자동으로 생성하는 가상 robots.txt 파일에 행을 추가합니다. ChatGPT-User 봇에 대한 정보는 다음과 같습니다 . 또한 향후 모델을 개선하는 데 잠재적으로 사용될 수 있는 GPTBot 사용자 에이전트를 차단합니다 .

반응형