[네이버웹마스터 가이드] robots.txt 작성 가이드
페이지 정보
본문
robots.txt는 검색로봇에게 사이트 및 웹페이지를 수집할 수 있도록 허용하거나 제한하는 국제 권고안입니다. robots.txt 파일은 항상 사이트의 루트 디렉터리에 위치해야 하며 로봇 배제 표준을 따르는 일반 텍스트 파일로 작성해야 합니다. 네이버 검색로봇은 robots.txt에 작성된 규칙을 준수하며, 만약 사이트의 루트 디렉터리에 robots.txt 파일이 없다면 모든 콘텐츠를 수집할 수 있도록 간주합니다.
간혹 특정 목적을 위하여 개발된 웹 스크랩퍼를 포함하여 일부 불완전한 검색로봇은 robots.txt 내의 규칙을 준수하지 않을 수 있습니다. 그러므로 개인 정보를 포함하여 외부에 노출되면 안 되는 콘텐츠의 경우 로그인 기능을 통하여 보호하거나 다른 차단 방법을 사용해야 합니다.
robots.txt 위치
robots.txt 파일은 반드시 사이트의 루트 디렉터리에 위치해야 하며 텍스트 파일 (text/plain) 로 접근이 가능해야 합니다.
HTTP 응답코드에 따른 처리
사이트의 robots.txt에 네이버 검색로봇이 접근하였을 때 정상적인 2xx 응답 코드를 전달해주세요. 검색로봇은 HTTP 응답 코드에 따라 아래와 같이 동작합니다.
응답 코드 그룹 | 설명 | |
---|---|---|
2xx | Successful | 로봇 배제 표준을 준수하는 규칙을 해석하여 사용합니다. 만약, robots.txt가 HTML 문서로 반환된다면 그 안에 유효한 규칙이 있더라도 robots.txt가 없음 (모두 허용)으로 해석될 수도 있습니다. 그러므로, 로봇 배제 규칙을 따르는 일반 텍스트 파일 (text/plain)로 작성하는 것을 권장합니다. |
3xx | Redirection | HTTP redirect에 대하여 5회까지 허용하며 그 이상의 redirection 발생 시 중단 후 '모두 허용'으로 해석합니다. HTML 및 JavaScript를 통한 redirection은 해석하지 않습니다. |
4xx | Client Error | '모두 허용'으로 해석합니다. |
5xx | Server Error | '모두 허용하지 않음'으로 해석합니다. 다만, 이전에 정상적으로 수집된 robots.txt 규칙이 있다면 일시적으로 사용될 수 있습니다. |
robots.txt 규칙 예제
robots.txt 파일에 작성된 규칙은 같은 호스트, 프로토콜 및 포트 번호 하위의 페이지에 대해서만 유효합니다. http://www.example.com/robots.txt의 내용은 http://example.com/ 와 https://example.com/에는 적용되지 않습니다.
대표적인 규칙은 아래와 같으며 사이트의 콘텐츠 성격에 맞게 변경해주세요.
- 다른 검색엔진의 로봇에 대하여 수집을 허용하지 않고 네이버 검색로봇만 수집 허용으로 설정합니다.
User-agent: * Disallow: / User-agent: Yeti Allow: /
- 모든 검색엔진의 로봇에 대하여 수집 허용으로 설정합니다.
User-agent: * Allow: /
- 사이트의 루트 페이지만 수집 허용으로 설정합니다.
User-agent: * Disallow: / Allow: /$
- 관리자 페이지, 개인 정보 페이지와 같이 검색로봇 방문을 허용하면 안 되는 웹 페이지는 수집 비허용으로 설정해주세요. 아래 예제는 네이버 검색로봇에게 /private-image, /private-video 등은 수집하면 안 된다고 알려줍니다.
User-agent: Yeti Disallow: /private*/
- 모든 검색로봇에게 사이트의 모든 페이지에 대하여 수집을 허용하지 않는다고 알려줍니다. 이 예제는 사이트의 어떠한 페이지도 수집 대상에 포함되지 않으므로 권장하지 않습니다.
User-agent: * Disallow: /
자바스크립트 및 CSS 파일 수집을 허용해 주세요
간혹 일부 사이트가 자바스크립트 및 CSS 파일과 같은 리소스 URL을 robots.txt 규칙 내에서 수집 비허용으로 처리하는 경우가 있습니다. 이러한 경우 네이버 검색 로봇이 페이지의 주요 영역을 해석하는 데 어려움을 겪을 수 있습니다. 자바스크립트를 포함한 리소스 파일을 검색로봇이 수집할 수 있도록 허용해 주세요. 자세한 내용은 자바스크립트 검색 최적화 문서를 참고하시기 바랍니다.
파비콘(favicon) 수집을 허용해 주세요
"검색 결과에 노출"되는 웹페이지의 파비콘이 robots.txt로 차단된 경우 예외적으로 robots.txt 규칙을 따르지 않고 파비콘을 수집할 수 있습니다. 이는 파비콘을 검색 노출이 되고 있는 웹페이지 내부의 필수 구성 리소스로 취급하기 때문입니다. 검색에 노출되는 문서의 내부 구성요소(css, javascript, image..)는 문서와 동일하게 robots.txt 규칙으로 설정해 주세요. 파비콘과 관련된 좀 더 자세한 내용은 파비콘 마크업 가이드 을 참고하세요.
sitemap.xml 지정
내 사이트에 있는 페이지들의 목록이 담겨있는 sitemap.xml의 위치를 robots.txt에 기록해서 검색 로봇이 내 사이트의 콘텐츠를 더 잘 수집할 수 있도록 도울 수 있습니다.
User-agent: *
Allow: /
Sitemap: http://www.example.com/sitemap.xml
웹마스터도구의 robots.txt 도구를 활용하세요
웹마스터도구에서 제공하는 robots.txt 도구를 활용하면 보다 쉽게 사이트의 robots.txt 파일을 관리할 수 있으며 아래와 같이 2가지 기능을 제공합니다.
1. robots.txt 수집 및 검증
- 사이트의 루트 디렉터리에 있는 robots.txt 파일을 수정한 뒤 검색로봇에게 빠르게 알리고 싶다면 수집 요청을 눌러주세요
- 설정된 로봇룰에 따라서 웹 페이지의 수집 가능여부를 테스트할 수 있습니다.
2. robots.txt 간단 생성
- robots.txt 파일을 간단하게 생성 후 다운로드할 수 있습니다. 다운로드한 robots.txt 파일을 사이트의 루트 디렉터리에 업로드 후 위 1번의 수집 요청을 실행하면 네이버 검색로봇이 바로 인식할 수 있습니다.
출처 : 네이버 웹마스터 가이드
- 이전글[네이버웹마스터 가이드] 웹페이지 페이지간 이동시 고려할 사항 21.06.01
- 다음글[네이버웹마스터 가이드] 검색이 잘되는 웹사이트 만들기 21.05.28
댓글목록
등록된 댓글이 없습니다.