[네이버웹마스터 가이드] HTTP 응답 및 검색로봇 확인 절차 > 웹문서/검색 마케팅

[네이버웹마스터 가이드] HTTP 응답 및 검색로봇 확인 절차

페이지 정보

작성자 금탑 작성일 21-06-04 08:32 조회 11,643 댓글 0

본문

HTTP 규약이란?

Browser (IE, Chrome, Safari, Firefox)가 web server와 통신하기 위한 규약
Browser에서 요청(Request)하면 응답(Response)하는 간단한 구조
W3C, IETF등에서 제정한 인터넷 표준 (RFC-2616)으로 국제적인 질서
1991년 HTTP/0.9부터 20년 이상 전세계적으로 사용되는 안정된 표준
WWW와 관련된 모든 software가 따르고 있으나, 몇몇 부분은 site 관리자가 서비스 특성에 따라 설정해 주어야 함

HTTP 응답코드

	응답 코드 그룹	응답 코드	설명
1xx	Informational
2xx	Successful	200 OK	가장 일반적인 경우, 요청된 웹 페이지를 돌려줄 경우
3xx	Redirection	301 Moved Permanently	요청된 URL이 (Location: header로 지정된) URL로 완전히 전환된 경우. client는 요청된 URL을 지우던가 새 URL로 바꿔치기 한다
		302 Found	HTTP/1.0과 초기 HTTP/1.1과 호환성 유지를 위해 남겨진 코드. 원래는 요청된 URL이 301과는 달리 임시로 변경된 것을 나타내는 것이었으나, 실제 구현이 HTTP 규약의 의도를 벗어나서 303과 307로 분리하여 제정
		303 See Other	요청된 URL이 잠시 다른 URL로 바뀐 것을 알림. (Location: header로 지정된) 바뀐 URL은 GET method로 접근해야 함
		307 Temporary Redirect	요청된 URL이 잠시 다른 URL로 바뀐 것을 알림. (Location: header로 지정된) 바뀐 URL은 GET method로 접근해야 함
4xx	Client Error	400 Bad Request	HTTP 요청, 특히 문법이 잘못된 경우
		403 Forbidden	권한이 없는 웹 페이지에 접근했을 경우
		404 Not Found	없는 페이지에 접근했을 경우
5xx	Server Error	500 Internal Server Error	웹 서버 설정이 잘못 되었거나 서버 프로그램에 오류가 있을 때
		503 Service Unavailable	웹 서버에 너무 많은 요청이 몰리거나 웹 서버에 부하가 걸려 응답하지 못할 때

사용자를 대신하여 웹페이지를 방문하는 S/W는 자기 자신만의 이름을 User-Agent에 명시합니다. 웹 브라우저뿐만이 아니라 검색로봇도 자신만의 User-Agent를 가지고 있으며 네이버 검색로봇은 Yeti라는 이름을 사용합니다.

많은 웹사이트들은 일부 악의적인 접근을 막기 위하여 방화벽을 운영하고 있습니다. 만약 내 사이트가 수집이 안된다면 Yeti로 명시된 네이버 검색로봇이 방화벽의 정책 때문에 사이트 접근이 차단되었는지 점검해야 합니다.

네이버의 검색로봇의 구분은 User-Agent를 활용하여 구분하는 방법과 역 DNS 조회를 통한 IP로 확인하는 방법이 있습니다.

User-Agent 이름으로 확인

방화벽에서 네이버 검색로봇의 접근을 허용해주세요. 네이버 검색로봇의 이름(User-Agent)은 Yeti입니다. 숫자로 명시된 버전은 사전 예고 없이 변경될 수 있습니다.

Mozilla/5.0 (compatible; Yeti/1.1; +http://naver.me/spd)

자바스크립트 및 CSS와 같은 웹 페이지 내의 리소스를 수집하는 경우 브라우저 User-Agent 마지막에 Yeti가 추가됩니다.

Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebit/53.7.36 (KHTML, like Gecko) Chrome/63.0.3239.0 Safari/537.36 (compatible; Yeti/1.1; +http://naver.me/spd)

IP 정보로 확인

검색로봇의 접근은 일반적으로 HTTP header로 전달되는 User-Agent 정보를 이용하여 식별할 수 있습니다. 하지만 이 정보는 요청자가 임의로 넣을 수 있기 때문에, 해당 접근이 실제 네이버 검색로봇에 의한 것인지를 확인하기 위해서는 다음과 같은 방법을 사용합니다.

웹서버 로그 혹은 방화벽 접근 기록에 있는 접근자의 IP 주소에 대해 역 DNS 조회를 하여 조회된 도메인이 .naver.com으로 끝나는지 확인합니다.
위에서 얻어진 도메인에 대해서 DNS 조회를 하여 원래 IP 주소와 같은지 확인합니다.

* 예시 (리눅스)
$ host 125.209.235.169
169.235.209.125.in-addr.arpa domain name pointer crawl.125-209-235-169.web.naver.com.

$ host crawl.125-209-235-169.web.naver.com
crawl.125-209-235-169.web.naver.com has address 125.209.235.169

* 예시 (Windows, 윈도우키 + R 입력 후 cmd 실행)
C:\Users> nslookup 125.209.235.169
Server: cns1.naver.com
Address: 10.22.64.6

Name: crawl.125-209-235-169.web.naver.com
Address: 125.209.235.169

C:\Users> nslookup crawl.125-209-235-169.web.naver.com
Server: cns1.naver.com
Address: 10.22.64.6

Name: crawl.125-209-235-169.web.naver.com
Address: 125.209.235.169

출처 : 네이버 웹마스터 가이드

댓글목록 0

등록된 댓글이 없습니다.