robots.txt란? 검색엔진에게 수집 규칙을 알려주는 파일
robots.txt가 뭔지, 왜 필요한지 쉽게 정리했어요. AI 검색에 내 콘텐츠가 인용되길 원한다면 robots.txt 설정을 꼭 확인해보세요.
한 줄 요약
robots.txt는 검색엔진 크롤러에게 "이 페이지는 봐도 돼요, 이 페이지는 보지 마세요"라고 알려주는 작은 텍스트 파일이에요.
내 홈페이지 안에는 방문자에게 보여주고 싶은 페이지도 있고, 굳이 검색 결과에 노출되지 않아도 되는 페이지도 있어요. 예를 들어 관리자 로그인 페이지나 장바구니 페이지 같은 거요.
robots.txt는 검색엔진 크롤러*에게 "여기는 봐도 돼요", "여기는 건너뛰세요"라고 미리 알려주는 파일이에요.
*크롤러 : 검색엔진이 인터넷을 돌아다니며 웹페이지를 읽어가는 프로그램이에요.
robots.txt는 어떻게 생겼나요?
홈페이지 주소 뒤에 /robots.txt를 붙이면 누구나 확인할 수 있어요. 예를 들어 qshop.ai/robots.txt처럼요. 안에는 이런 식의 간단한 규칙이 적혀 있어요.
| 규칙 | 의미 |
|---|---|
| User-agent: * | 모든 검색엔진 크롤러에게 적용돼요 |
| Disallow: /admin | 관리자 페이지는 크롤링하지 마세요 |
| Allow: /blog | 블로그 페이지는 크롤링해도 돼요 |
| Sitemap: qshop.ai/sitemap.xml | 사이트맵*이 여기 있어요 |
*사이트맵 : 내 홈페이지에 어떤 페이지들이 있는지 목록으로 정리한 파일이에요. 검색엔진이 내 홈페이지 구조를 빠르게 파악하도록 도와줘요.
쉬운 예시
건물 안내판을 생각해보세요. "1층 카페는 누구나 들어오세요", "3층 직원 휴게실은 출입 금지"라고 적혀 있으면 방문객이 알아서 구분하잖아요. robots.txt가 검색엔진 크롤러에게 주는 안내판 역할이에요.
내 홈페이지랑 무슨 관계예요?
robots.txt를 잘못 설정하면 큰 문제가 생길 수 있어요. 실수로 전체 홈페이지를 막아버리면 구글이 아예 내 사이트를 크롤링하지 못해서 검색 결과에서 완전히 사라질 수 있어요. 반대로 비공개로 유지해야 할 페이지를 막지 않으면 민감한 정보가 검색 결과에 노출될 수도 있어요.
큐샵같이 홈페이지를 쉽게 만들 수 있게 해주는 홈페이지 빌더는 기본 robots.txt를 자동으로 만들어줘요. 직접 코딩할 필요는 없지만, 어떤 페이지가 검색 크롤러에게 수집되고 있는지는 한 번씩 확인해보는 게 좋아요.
AI 검색이랑은 무슨 관계예요?
챗지피티, 퍼플렉시티, 클로드 같은 AI 서비스들도 각자의 크롤러를 가지고 있어요. 사람 이름처럼 크롤러마다 고유한 이름이 있는데, 챗지피티는 GPTBot, 퍼플렉시티는 PerplexityBot, 클로드는 ClaudeBot이라고 불려요. 이 크롤러들도 robots.txt 규칙을 보고 "여기는 들어가도 되는구나" 또는 "여기는 막혀있네"를 판단해요.
여기서 한 가지 더 알면 좋은 게 있어요. AI 크롤러는 두 가지 목적으로 나뉘어요. 하나는 AI를 학습시키는 용도, 다른 하나는 실시간으로 질문에 답하기 위해 정보를 가져가는 용도예요.
학습용 크롤러를 막는 건 AI 검색 노출에 큰 영향이 없어요. 하지만 실시간 검색용 크롤러(이름에 SearchBot, User가 붙은 것들)를 막으면 AI 검색에 내 콘텐츠가 전혀 노출되지 않을 수 있어요.
정리하면, 내 콘텐츠가 AI 검색에 인용되길 원한다면 실시간 검색용 크롤러는 막아두지 않았는지 한 번 확인해보는 게 좋아요.
자주 묻는 질문 (FAQ)
Q. robots.txt가 없으면 어떻게 되나요?
A. robots.txt가 없으면 검색엔진은 기본적으로 모든 페이지를 크롤링해도 된다고 판단해요. 특별히 막을 페이지가 없다면 없어도 큰 문제는 아니지만, 사이트맵 위치를 알려주는 역할도 하니까 만들어두는 게 좋아요.
Q. robots.txt로 페이지를 막으면 검색 결과에서 완전히 사라지나요?
A. 아니요, 완전히 안 사라질 수도 있어요.
robots.txt는 구글에게 "이 페이지 내용은 읽지 마세요"라고 말하는 것뿐이에요. 그런데 예를 들어 어떤 기자가 자기 기사에서 "이 회사 홈페이지 보러 가기"라며 내 페이지로 링크를 걸어뒀다면, 구글은 그 링크를 보고 "여기 페이지가 하나 있구나"라는 사실을 알게 돼요. 페이지 내용은 못 읽었지만 존재 자체는 아는 거예요. 그래서 내용 없이 제목만 검색 결과에 뜨는 경우가 생길 수 있어요.