[네이버웹마스터 가이드] HTTP 응답 및 검색로봇 확인 절차
페이지 정보
본문
HTTP 규약이란?
- Browser (IE, Chrome, Safari, Firefox)가 web server와 통신하기 위한 규약
- Browser에서 요청(Request)하면 응답(Response)하는 간단한 구조
- W3C, IETF등에서 제정한 인터넷 표준 (RFC-2616)으로 국제적인 질서
- 1991년 HTTP/0.9부터 20년 이상 전세계적으로 사용되는 안정된 표준
- WWW와 관련된 모든 software가 따르고 있으나, 몇몇 부분은 site 관리자가 서비스 특성에 따라 설정해 주어야 함
HTTP 응답코드
응답 코드 그룹 | 응답 코드 | 설명 | |
---|---|---|---|
1xx | Informational | ||
2xx | Successful | 200 OK | 가장 일반적인 경우, 요청된 웹 페이지를 돌려줄 경우 |
3xx | Redirection | 301 Moved Permanently | 요청된 URL이 (Location: header로 지정된) URL로 완전히 전환된 경우. client는 요청된 URL을 지우던가 새 URL로 바꿔치기 한다 |
302 Found | HTTP/1.0과 초기 HTTP/1.1과 호환성 유지를 위해 남겨진 코드. 원래는 요청된 URL이 301과는 달리 임시로 변경된 것을 나타내는 것이었으나, 실제 구현이 HTTP 규약의 의도를 벗어나서 303과 307로 분리하여 제정 | ||
303 See Other | 요청된 URL이 잠시 다른 URL로 바뀐 것을 알림. (Location: header로 지정된) 바뀐 URL은 GET method로 접근해야 함 | ||
307 Temporary Redirect | 요청된 URL이 잠시 다른 URL로 바뀐 것을 알림. (Location: header로 지정된) 바뀐 URL은 GET method로 접근해야 함 | ||
4xx | Client Error | 400 Bad Request | HTTP 요청, 특히 문법이 잘못된 경우 |
403 Forbidden | 권한이 없는 웹 페이지에 접근했을 경우 | ||
404 Not Found | 없는 페이지에 접근했을 경우 | ||
5xx | Server Error | 500 Internal Server Error | 웹 서버 설정이 잘못 되었거나 서버 프로그램에 오류가 있을 때 |
503 Service Unavailable | 웹 서버에 너무 많은 요청이 몰리거나 웹 서버에 부하가 걸려 응답하지 못할 때 |
사용자를 대신하여 웹페이지를 방문하는 S/W는 자기 자신만의 이름을 User-Agent에 명시합니다. 웹 브라우저뿐만이 아니라 검색로봇도 자신만의 User-Agent를 가지고 있으며 네이버 검색로봇은 Yeti라는 이름을 사용합니다.
많은 웹사이트들은 일부 악의적인 접근을 막기 위하여 방화벽을 운영하고 있습니다. 만약 내 사이트가 수집이 안된다면 Yeti로 명시된 네이버 검색로봇이 방화벽의 정책 때문에 사이트 접근이 차단되었는지 점검해야 합니다.
네이버의 검색로봇의 구분은 User-Agent를 활용하여 구분하는 방법과 역 DNS 조회를 통한 IP로 확인하는 방법이 있습니다.
User-Agent 이름으로 확인
방화벽에서 네이버 검색로봇의 접근을 허용해주세요. 네이버 검색로봇의 이름(User-Agent)은 Yeti입니다. 숫자로 명시된 버전은 사전 예고 없이 변경될 수 있습니다.
Mozilla/5.0 (compatible; Yeti/1.1; +http://naver.me/spd)
자바스크립트 및 CSS와 같은 웹 페이지 내의 리소스를 수집하는 경우 브라우저 User-Agent 마지막에 Yeti가 추가됩니다.
Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebit/53.7.36 (KHTML, like Gecko) Chrome/63.0.3239.0 Safari/537.36 (compatible; Yeti/1.1; +http://naver.me/spd)
IP 정보로 확인
검색로봇의 접근은 일반적으로 HTTP header로 전달되는 User-Agent 정보를 이용하여 식별할 수 있습니다. 하지만 이 정보는 요청자가 임의로 넣을 수 있기 때문에, 해당 접근이 실제 네이버 검색로봇에 의한 것인지를 확인하기 위해서는 다음과 같은 방법을 사용합니다.
웹서버 로그 혹은 방화벽 접근 기록에 있는 접근자의 IP 주소에 대해 역 DNS 조회를 하여 조회된 도메인이 .naver.com으로 끝나는지 확인합니다.
위에서 얻어진 도메인에 대해서 DNS 조회를 하여 원래 IP 주소와 같은지 확인합니다.
* 예시 (리눅스)
$ host 125.209.235.169
169.235.209.125.in-addr.arpa domain name pointer crawl.125-209-235-169.web.naver.com.
$ host crawl.125-209-235-169.web.naver.com
crawl.125-209-235-169.web.naver.com has address 125.209.235.169
* 예시 (Windows, 윈도우키 + R 입력 후 cmd 실행)
C:\Users> nslookup 125.209.235.169
Server: cns1.naver.com
Address: 10.22.64.6
Name: crawl.125-209-235-169.web.naver.com
Address: 125.209.235.169
C:\Users> nslookup crawl.125-209-235-169.web.naver.com
Server: cns1.naver.com
Address: 10.22.64.6
Name: crawl.125-209-235-169.web.naver.com
Address: 125.209.235.169
출처 : 네이버 웹마스터 가이드
- 이전글[네이버웹마스터 가이드] 자바스크립트 포함된 문서 검색최적화 21.06.04
- 다음글[네이버웹마스터 가이드] 웹사이트 이전시 고려사항 21.06.01
댓글목록
등록된 댓글이 없습니다.