openai 공식 크롤러를 공개하였습니다. 우리 모두가 알고 있듯이 OpenAI는 GPT-4 이후 기술 세부 사항을 완전히 비밀로 유지해 왔으며 처음에는 기술 보고서를 사용하여 벤치마크 테스트 결과를 표시했지만 교육 데이터 및 모델 매개 변수에 대해서는 침묵을 지켰습니다. 그러나, 개인정보가 이슈가 발생되면서 데이터를 어떻게 수집했느냐에 대한 이목이 집중되었습니다. 이러한 이슈를 대응하기로 결정한 것 같습니다.
–
목차
–
요점
openai의 공식 크롤러 GPTBot을 공개할테니, 싫으면 우리 Bot을 차단하세요.
그리고 어떻게 차단하는지도 설명할테니까! 우리 공식 DOC를 참고하면 됩니다.
–
기존 문제점
- 저작권 침해: OpenAI의 크롤러(GPTBot)가 저작권이 있는 콘텐츠, 라이센스 이미지, 비디오, 음악 등을 처리하는 방법에 대한 질문이 제기되었습니다. 출처 없이 이러한 콘텐츠를 사용하는 것은 저작권 침해가 될 수 있습니다.
- 공정 사용 및 소유권 문제: 일부 사람들은 OpenAI가 웹 데이터를 자유롭게 사용할 권리가 있다고 믿지만, 다른 이들은 상업적 이익을 추구하는 경우 이익을 공유해야 한다고 주장합니다.
- robots.txt의 효용: GPTBot은 robots.txt를 통해 차단할 수 있지만, 일부에서는 검색 엔진 크롤러와 달리 이 크롤러를 허용하는 이점이 없다고 봅니다.
- 투명성의 부족: 데이터 수집과 처리에 대한 명확한 안내와 투명성이 부족한 것으로 보입니다.
- 기술 커뮤니티의 우려: AI 제품이 빠르게 발전하면서, 데이터가 어떻게 사용되는지에 대한 관심과 우려가 커지고 있습니다.
–
openai 공식 크롤러 개요
GPT-4를 훈련시키려면 막대한 양의 데이터가 필요하다는 것을 상상하는 것은 어렵지 않으며, 이는 비용을 지불한다고 해결될 수 있는 문제가 아닙니다. 높은 확률로 OpenAI는 웹 크롤러를 사용합니다. 많은 사용자가 이 방법이 사용자의 저작권 및 개인 정보 보호 권리를 침해한다는 이유로 OpenAI를 비난했습니다.
바로 지금 OpenAI는 대결을 펼쳤습니다. 전체 인터넷에서 데이터를 크롤링하는 웹 크롤러 인 GPTBot을 직접 발표했습니다.
이 데이터는 GPT-4 및 GPT-5와 같은 AI 모델을 교육하는 데 사용됩니다. 그러나 GPTBot은 크롤링된 콘텐츠에 개인 정보 소스를 위반하고 지불을 요구하는 콘텐츠가 절대 포함되지 않음을 보장합니다.
OpenAI는 “GPTBot은 AI 모델의 정확성, 기능 및 보안을 개선하기 위해 웹 데이터를 크롤링하는 데 사용됩니다.”라고 말했습니다.
웹사이트 소유자는 필요에 따라 GPTBot이 웹사이트 데이터를 크롤링하도록 허용 및 제한할 수 있습니다. 다음으로 GPTBot이 어떻게 동작하는지 살펴보고, 그나저나 차단 방법에 대해 알아보도록 하겠습니다.
–
openai 공식 크롤러 GPTBot 사용방법
먼저 GPTBot의 User-Agent String은 다음과 같습니다.
User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
다음 방법을 사용하여 GPTBot이 웹사이트에 액세스하지 못하도록 웹사이트의 robots.txt에 GPTBot을 추가하십시오.
User-agent: GPTBot
Disallow: /
GPTBot이 웹사이트의 특정 부분 콘텐츠에 액세스하도록 허용하는 것도 가능합니다.
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
최근 OpenAI는 명시적인 승인 없이 웹 사이트 데이터에서 GPT-4와 같은 대규모 알고리즘을 교육했습니다. 언어 모델은 강한 반대에 부딪혔습니다. 비평가들은 OpenAI와 같은 회사는 콘텐츠에 공개적으로 액세스할 수 있는 경우에도 교육 프로토콜을 따라야 한다고 말했습니다.
–
openai 공식 크롤러에 대한 사람들의 다양한 입장
그러나 로보틱스 규약을 준수하더라도 이는 사양이 아닌 규약일 뿐이므로 웹사이트의 프라이버시를 보장할 수는 없습니다.
GPTBot이 출시된 후 이러한 역학 관계는 Hacker News에서 화제를 일으켰고, 훈련을 위해 스크랩한 네트워크 데이터를 사용하는 데 초점을 맞췄습니다.
어떤 사람들은 GPTBot의 출시가 AI 모델을 개발하기 위해 공개 데이터를 사용하는 “회색 영역”을 보여준다고 생각합니다.
“모델을 교육한 후 데이터를 스크랩하는 것이 좋을 것입니다. 아마도 이러한 헤더는 GPT를 교육하기 위해 이미 크롤링한 페이지에 영향을 미치지 않을 것입니다.”
GPTBot은 자신을 식별하기 때문에 웹마스터는 robots.txt를 통해 이를 차단할 수 있지만 일부는 트래픽을 유도하는 검색 엔진 크롤러와 달리 허용해도 아무런 이점이 없다고 생각합니다.
한 가지 우려 사항은 저작자 표시 없이 저작권이 있는 콘텐츠를 사용하는 것입니다. ChatGPT에는 현재 어느 데이터를 참고하고 있는지에 대한 표기를 제공하지 않습니다.
GPTBot이 사이트에서 라이센스가 부여된 이미지, 비디오, 음악 및 기타 미디어를 처리하는 방법에 대한 질문도 제기되었습니다. 이러한 매체를 모델 교육에 사용하는 경우 저작권 침해가 될 수 있습니다.
다른 전문가들은 크롤러가 생성한 데이터가 AI가 작성한 콘텐츠를 훈련에 피드백하면 모델의 성능을 저하시킬 수 있다고 보고 있습니다.
대신 OpenAI가 공개된 웹 데이터를 자유롭게 사용할 권리가 있으며 온라인 콘텐츠에서 학습하는 사람에 비유하는 주장도 있습니다. 그러나 다른 사람들은 OpenAI가 상업적 이득을 위해 네트워크 데이터로 수익을 창출한다면 그 이익을 공유해야 한다고 주장합니다.
요컨대 GPTBot은 소유권, 공정 사용 및 웹 콘텐츠 제작자에 대한 인센티브에 대한 복잡한 논쟁을 불러일으켰습니다. robots.txt를 따르는 것은 좋은 단계이지만 여전히 투명성이 부족합니다.
–
외부링크
–