[네이버웹마스터 가이드] 웹사이트 수집요청 및 사이트맵 제출 방법 > 웹문서/검색 마케팅

본문 바로가기
사이트 내 전체검색

웹문서/검색 마케팅

[네이버웹마스터 가이드] 웹사이트 수집요청 및 사이트맵 제출 방법

페이지 정보

profile_image
작성자 금탑
댓글 0건 조회 9,982회 작성일 21-06-21 10:20

본문

웹페이지 수집 정책

웹마스터도구에서 제공하는 웹 페이지 수집요청은 검색로봇이 미처 방문하지 못한 사이트의 주요 웹페이지를 사용자가 직접 수집요청을 하는 기능으로서, 사이트 별로 제한된 범위 내에서 수집요청을 실행할 수 있습니다.

수집 요청 후 해당 URL 방문하여 수집을 진행하는 일련의 과정은 큰 비용이 발생하는 작업입니다. 알고리즘으로 동작하는 검색로봇의 수집 과정과 동일하게 웹마스터도구를 통해 사용자가 요청한 개별 URL에 대한 수집도 우선순위에 기반하여 동작합니다. 그러므로 사용자가 직접 웹페이지를 수집 요청하더라도 검색로봇이 실시간으로 요청된 URL을 방문하지 않습니다.

웹마스터도구에서 여러분이 요청한 수집요청 URL이 수집 시스템에 전달되면 우선순위에 따라 최소 1일에서 몇 주간의 시간이 소요될 수 있습니다. 그러므로, 동일 URL에 대해서 매일 반복적으로 수집요청을 제출할 필요는 없습니다. 수집보류로 처리결과가 변경되더라도 검색로봇이 다른 경로를 통해서 해당 URL을 수집할 수 있습니다. 다만, 이 경우 웹마스터도구의 수집요청 결과에는 반영되지 않습니다.

웹마스터도구의 수집요청 기능은 수집 시스템에게 수집 대상 URL을 전달하는 도우미의 역할만을 담당합니다. 또한, 수집성공이 되더라도 네이버의 검색결과에 노출된다는 보장은 없습니다. 여러분 사이트의 품질을 높이고 타 사이트에서 여러분의 콘텐츠가 인용이 되면 자연스럽게 검색로봇이 이를 인식하여 방문하므로
인위적인 수집요청 처리보다는 검색로봇의 자연스러운 수집을 권장합니다.

수집 요청 결과 설명

처리결과설명
요청완료사용자가 수집 요청을 처리하고 수집 시스템이 이를 인식
수집보류수집 요청한 웹사이트의 수집 여부를 판단하기 어려워 보류가 된 경우
수집중복수집시스템이 최근 수집한 웹페이지를 다시 수집 요청한 경우
서버오류수집 요청한 웹사이트의 웹서버가 오류 코드를 반환 하는 경우
수집차단수집 요청한 웹사이트의 robots.txt 에 의해 네이버 검색 로봇 방문이 차단이 된 경우
연결실패도메인 미연동, 방화벽으로 인한 접근차단 등으로 웹사이트의 접근 불가능한 경우
수집성공정상적으로 수집처리가 된 경우

간혹 스패머들이 대량의 스팸 사이트를 등록 후 수집요청을 악용 하는 경우도 있습니다. 이를 위해서 웹마스터도구에서는 수집요청에 대한 모니터링을 강화하고 있으며 자체 알고리즘을 통하여 스팸으로 판단되는 사이트의 수집요청을 제한하고 있습니다.

웹페이지 검색 제외

웹마스터도구에서 제공하는 웹 페이지 검색 제외는 사이트내 특정 콘텐츠를 네이버 검색엔진의 색인에서 제외시키는 기능입니다. 검색에 노출된 특정 콘텐츠가 제외되는 과정은 "재 색인"을 거쳐야 하므로 실시간으로 반영되지 않습니다.

  1. 사이트의 원본 콘텐츠를 먼저 삭제해주세요.
  2. 웹마스터도구 > 사이트 > 검증 > 웹페이지 최적화에서 삭제된 문서에 검색 로봇이 접근시 http 응답코드가 404 Not Found 로 지정되는 것을 확인합니다.
  3. 웹마스터도구 > 사이트 > 요청 > 웹 페이지 검색 제외에서 삭제 대상 URL을 입력해주세요
  4. 색인 정보가 업데이트 되면서 검색결과에서 해당 문서가 제외처리 됩니다.


네이버 검색로봇은 웹마스터도구에 제출된 RSS 및 사이트맵을 "콘텐츠 피드"로 간주하여 주기적으로 재 방문 합니다. 이러한 콘텐츠 피드는 사이트의 주요 콘텐츠 URL을 담고 있기 때문에 네이버 검색로봇에게 내 사이트의 URL을 적극적으로 알려주는 창구로 활용할 수 있습니다. 만약, 네이버 검색결과에서 내 사이트의 콘텐츠 노출량이 적다면 RSS 및 사이트맵 피드를 제출하는 것을 권장합니다.

RSS (Rich Site Summary)

RSS는 사이트의 최신 콘텐츠를 본문까지 포함하여 발행하는 XML 기반의 퍼블리싱 규약입니다. 일반적으로 구독자가 RSS 리더기를 통해서 해당 사이트의 RSS 피드로 부터 콘텐츠를 소비하는 구조로 사용되며, 뉴스나 블로그 사이트에서 주로 RSS 피드를 제공하고 있습니다.

RSS 문서 예제

<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0">
  <channel>
    <title>사이트 이름</title>
    <link>http://www.example.com/</link>
    <description>사이트 설명</description>
    <item>
      <title>콘텐츠 게시글 1</title>
      <link>http://www.example.com/article-1.html</link>
      <description>글 내용 전체(또는 일부)</description>
      <pubDate>발행시간</pubDate>
      <guid>http://www.example.com/article-1.html</guid>
    </item>
    <item>
      <title>콘텐츠 게시글 2</title>
      <link>http://www.example.com/article-2.html</link>
      <description>글 내용 전체(또는 일부)</description>
      <pubDate>발행시간</pubDate>
      <guid>http://www.example.com/article-2.html</guid>
    </item>
  </channel>
</rss>

RSS 제출시 주의사항

웹마스터도구는 RSS 피드 제출시 아래와 같이 기본적인 검증 절차를 진행합니다.

  1. RSS 피드내 모든 URL의 도메인은 소유확인 된 사이트와 동일한 도메인 이어야 합니다.
  2. item 항목이 1개 이상이어야 합니다. 발행된 글이 없는 RSS 피드는 제출할 수 없습니다.
  3. RSS 피드 용량이 10MB 이상 넘어가는 경우 제출 할 수 없습니다.
  4. RSS 피드 수집시 응답속도가 느린 경우 제출이 제한될 수 있습니다.

아쉽게도 RSS 피드는 본문을 포함하고 있기 때문에 많은 수의 URL 을 담기가 어렵습니다. 되도록 RSS 보다는 사이트맵을 적극적으로 활용하는 것을 권장합니다.

사이트맵 (Sitemap.xml)

사이트맵 은 검색로봇에게 사이트 내에 수집되어야 할 페이지들을 알려 주기 위하여 마련된 표준 규약입니다. 사이트맵을 활용하여 URL의 추가 정보를 검색로봇에 제공할 수 있으므로 검색로봇이 사이트의 콘텐츠를 더 잘 수집할 수 있도록 도울 수 있습니다.

사이트 맵은 본문이 아닌 콘텐츠의 URL 정보만 담고 있기 때문에 사이트 내의 모든 URL을 포함하는 것을 권장합니다. 검색로봇은 해당 사이트맵에 포함된 URL 정보를 추출후 내부 알고리즘을 통하여 수집 대상 URL을 선별하여 우선 순위별로 수집을 진행합니다.

사이트맵 문서 예제

사이트맵은 사이트의 URL 모두를 담을 수 있습니다. 용량에 따라서 아래와 같이 2가지 형식으로 제출할 수 있습니다.

  1. 수집 대상 URL을 포함하는 사이트 맵으로 수집 대상 콘텐츠 URL을 포함하는 문서
요소설명필수여부
loc수집 대상 URL필수
lastmod페이지가 수정된 날짜선택
changefreq페이지 변경 빈도선택
priority사이트내 중요도선택
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
	<loc>http://www.example.com/article-1.html</loc>
	<lastmod>2019-08-26T11:16:53+09:00</lastmod>
	<changefreq>weekly</changefreq>
	<priority>0.8</priority>
  </url>
  <url>
	<loc>http://www.example.com/article-2.html</loc>
	<lastmod>2019-08-26T11:16:53+09:00</lastmod>
	<changefreq>weekly</changefreq>
	<priority>0.8</priority>
  </url>  
</urlset>
  1. 또다른 사이트맵을 포함하는 사이트맵 인덱스

사이트맵은 모든 URL 정보를 담고 있기 때문에 콘텐츠 타입이나 카테고리 별로 여러개의 사이트맵 문서를 제작한뒤 인덱스 문서를 사용하여 담을 수 있습니다. 예를들어 커뮤니티 사이트와 같이 사이트 내의 콘텐츠가 많은 경우 1번과 같이 단일 사이트맵에 모든 URL을 포함하기 어려운 경우 사용합니다.

요소설명필수여부
loc사이트맵 URL필수
lastmod사이트맵이 수정된 날짜선택
<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <sitemap>
    <loc>http://www.example.com/sitemap-1.xml</loc>
    <lastmod>2016-02-26T18:41:07+09:00</lastmod>
  </sitemap>
  <sitemap>
    <loc>http://www.example.com/sitemap-2.xml</loc>
    <lastmod>2015-05-14T21:06:14+09:00</lastmod>
  </sitemap>
</sitemapindex>

사이트맵 제출시 주의사항

웹마스터도구는 사이트맵 피드 제출시 아래와 같이 기본적인 검증 절차를 진행합니다.

  1. 사이트맵 피드내 모든 URL의 도메인은 소유확인 된 사이트와 동일한 도메인 이어야 합니다.
  2. 사이트맵 피드 용량이 10MB 이상 넘어가는 경우 제출 할 수 없습니다.
  3. 하나의 사이트맵은 50,000 개 이상의 URL 을 포함할 수 없습니다.
  4. 사이트맵 수집시 응답속도가 느린 경우 제출이 제한될 수 있습니다.



출처 : 네이버 웹마스터 가이드

댓글목록

등록된 댓글이 없습니다.

회원로그인

회원가입

Copyright © admoim.kr All rights reserved.