구글 서치 콘솔: 페이지 색인 생성 문제가 감지됨 오류

Last Updated: 2023년 08월 08일 | | 8개 댓글

워드프레스 사이트나 티스토리 사이트를 구글 서치 콘솔에 등록하면 수시로 구글에서 "새로운 페이지 색인 생성 문제가 감지됨" 메일이 날아올 것입니다. 이 경우 해당 색인 생성 문제를 확인하여 실제로 문제가 된다면 문제를 수정하도록 합니다.

하지만 많은 경우 색인 생성에서 제외되어야 하는 URL일 수 있습니다. 다음 글을 참고하여 해당 색인 생성 문제가 해결되어야 하는 문제인지 확인하시기 바랍니다.

구글 서치 콘솔: 페이지 색인 생성 문제가 감지됨 오류

최근 들어 Soft 404 문제로 인해 페이지 색인 생성 문제가 감지되었다는 메일을 받은 적이 있습니다.

구글 서치 콘솔: 페이지 색인 생성 문제가 감지됨 오류

이런 메일을 받으면 이메일에서 "페이지 색인 생성 문제 해결하기" 버튼을 클릭하여 상세 정보를 확인할 수 있습니다.

구글 서치 콘솔 Soft 404 에러

위와 비슷한 화면이 표시되면 URL 섹션에서 문제가 되는 URL을 확인할 수 있습니다.

먼저는 해당 URL이 실제로 색인이 되어야 하는지 여부를 판단하도록 합니다. 위의 그림에서는 http://example.kr/blog/674/에서 Soft 404 에러가 발생하는 것으로 나오는데요. 사실 이 URL은 없는 URL이고 색인이 되어서는 안 됩니다. (실제로 없는 URL이기 때문에 404 에러가 발생하는 것으로 정상적인 상태입니다.)

URL 위에 마우스를 올린 다음, 두 번째 아이콘(새 창에서 열기)을 클릭하면 해당 URL이 새 창에서 열립니다. 만약 이 URL이 색인이 되어야 한다면 세 번째 아이콘(돋보기 모양)을 클릭하여 URL 검사를 할 수 있습니다.

구글 설치 콘솔 URL 검사

"URL이 Google에 등록되어 있지 않음" 상태인 것으로 나오는 경우 색인 생성 요청을 눌러 색인 생성 요청을 할 수 있습니다.

참고로 해당 URL이 정상적인 URL로 보이더라도 다음과 같은 경우에는 색인이 안 되는 것이 정상입니다.

  • SSL 인증서가 설치되어 있는 상태에서 http://example.com/1234/와 같이 http로 된 주소. 이런 주소는 https 주소로 리디렉션되어야 합니다. (자동으로 리디렉션이 되지 않는 경우에는 리디렉션되도록 설정하도록 합니다.)
  • 정상적인 주소로 보이더라도 https://example.com/1234와 같이 끝에 슬래시(/)가 없는 경우에도 보통 무시하면 됩니다. 이런 주소는 https://example.com/1234/와 같이 슬래시가 있는 URL로 리디렉션되므로 색인이 되지 않습니다.

참고로 Rank Math 등 SEO 플러그인이나 404 모니터링 플러그인을 사용하여 404 에러를 모니터링하여 리디렉션을 설정하는 것이 가능합니다. 이를 통해 SEO를 개선할 수 있습니다.

또한, 404 페이지 없음 오류가 발생하는 URL을 구글 서치 콘솔에서 삭제 요청을 할 수 있습니다.

구글 서치 콘솔: 색인이 생성되지 않는 페이지

구글 설치 콘솔의 색인생성 » 페이지에서 색인이 생성되지 않은 페이지들을 확인할 수 있습니다.

색인이 생성되지 않는 페이지

이 사이트의 경우 10만 개가 넘는 페이지가 색인이 생성되지 않은 페이지로 표시되고 있습니다.

아래로 스크롤하면 "페이지 색인이 생성되지 않는 이유" 섹션에서 페이지 색인이 생성되지 않은 이유와 해당 페이지 개수를 확인할 수 있습니다.

페이지 색인이 생성되지 않는 이유

제 워드프레스 블로그에서는 다양한 이유로 많은 페이지가 색인이 생성되지 않은 것으로 나와 있습니다.

하나씩 살펴보면 대부분의 URL들이 색인이 생성되지 않는 이유가 있습니다.

리디렉션이 포함된 페이지

리디렉션이 포함된 페이지를 클릭해보면 문제가 되는 URL들이 나열됩니다.

리디렉션이 포함된 페이지

저는 몇 가지 이유 때문에 리디렉션이 포함된 페이지 개수가 많은 편입니다.

  • 다국어 사이트로 구성했다가 중도에 제거
  • SSL 인증서 적용
  • 일부 글의 카테고리 변경
  • AMP를 적용했다가 제거

구체적인 예시를 들어 보면,

  1. ①번 URL은 처음 이 블로그가 다국어로 구성되면서 한국어 콘텐츠의 URL이 /ko/카테고리_이름/글제목/ 형식이었습니다. 이후에 다국어 구성을 제거하면서 URL에서 /ko/를 제거하고 리디렉션을 설정했습니다.
  2. 고유주소를 "일반"으로 설정하면 포스트 URL이 http://www.thewordcrakcker.com/?p=1234 형식으로 표시됩니다. 고유주소를 다른 옵션으로 설정할 경우 기본 URL로 접속 시 실제 URL로 리디렉션됩니다.
  3. ③번 URL의 경우 끝에 트레일링 슬래시(Trailing Slash)가 누락되었습니다. 이런 URL은 트레일링 슬래시가 있는 URL로 리디렉션됩니다.
  4. AMP 제거 후에 리디렉션을 설정했습니다.
  5. 일부 글은 카테고리가 변경되었습니다. 예를 들어, https://www.thewordcracker.com/basic/hide-wordpress-login-page/에 접속하면 https://www.thewordcracker.com/intermediate/hide-wordpress-login-page/로 리디렉션됩니다.

참고로 URL 끝에 붙는 슬래시를 "트레일링 슬래시"라고 합니다.

  • URL 끝에 슬래시('/')가 붙은 것은 해당 URL 리소스가 디렉터리임을 의미합니다.
  • URL 끝에 슬래시('/')가 없는 경우 해당 리소스가 파일(file)임을 의미합니다.

URL 끝에 슬래시가 없으면 먼저 파일을 찾고, 파일이 없다면 디렉터리를 찾는다고 합니다. 포스트 URL에 트레일링 슬래시가 없으면 슬래시가 붙으면서 정상적인 URL로 접속이 됩니다. 이 경우 리디렉션이 발생하면서 (슬래시가 있는 URL에 접속하는 것에 비해) 약간의 딜레이가 있습니다.

적절한 표준 태그가 포함된 대체 페이지

이 블로그에서는 "적절한 표준 태그가 포함된 대체 페이지"를 이유로 색인이 되지 않는 페이지가 24,000개가 넘습니다.

적절한 표준 태그가 포함된 대체 페이지

세부적인 URL들을 살펴보면 모두 색인이 되어서는 안 되는 항목들이므로 무시해도 될 것 같습니다.

/?s=는 워드프레스에서 검색 실행 시 붙는 파라미터입니다. 예: https://www.thewordcracker.com/?s=워드프레스

사용자가 선택한 표준이 없는 중복 페이지

이 사이트에는 "사용자가 선택한 표준이 없는 중복 페이지"에 해당하는 페이지가 1만 개 이상입니다.

사용자가 선택한 표준이 없는 중복 페이지

사실 이 글을 작성한 이유가 이 부분에 대하여 다루고 싶었기 때문입니다. 이 분류에 해당하는 URL들은 대부분 끝에 /feed/가 붙습니다.

이 워드프레스 사이트에서 GeneratePress 테마로 변경한 후에 이런 문제가 있는 것 같아서 처음에는 테마와 관련된 문제인 것이 아닌가 의심이 되었습니다. 하지만 조금 더 살펴보니 이 문제는 특정 테마와 관련된 문제가 아니고 워드프레스 자체의 기능이라고 합니다.

/feed is the RSS feed of your site, and this is automatically generated by WordPress. This can be also generated/modified through SEO plugins.

/feed는 사이트의 RSS 피드이고, 워드프레스에서 자동으로 생성되며 SEO 플러그인을 통해 생성/수정이 가능하다고 합니다.

Yoast SEO 플러그인에서는 모든 피드 URL에 "noindex" 태그를 자동으로 추가한다고 하네요.

The Yoast plugin automatically adds a “noindex” tag to all feed URLs, since they don’t provide useful content to your site and should not be in the search index. These type of URLs are not added to the sitemap by the plugin either. However, it’s normal that they are excluded from the index and should not be a cause for concern.
RSS feeds are automatically generated by WordPress. WordPress creates feeds for almost all items on a site, including posts, comments, etc...

RSS 피드는 워드프레스에 의해 자동으로 생성되며 워드프레스에서는 포스트, 댓글 등 사이트의 거의 모든 항목에 대하여 피드를 생성한다고 합니다.

그러므로 URL 끝에 "/feed"가 붙는 문제로 인한 "사용자가 선택한 표준이 없는 중복 페이지" 문제는 무시해도 될 것 같습니다.

‘NOINDEX’ 태그에 의해 제외되었습니다.

워드프레스에서는 SEO 플러그인을 사용하여 특정 항목들에 noindex 메타 태그를 추가할 수 있습니다.

‘NOINDEX’ 태그에 의해 제외되었습니다.

검색 결과 페이지(/?s=검색어)는 동적으로 생성되는 페이지이기 때문에 noindex가 지정되어야 합니다.

참고로 robots.txt 파일을 통해 관리자 페이지 등 특정 디렉터리 내의 URL들이 크롤링되지 않도록 지정하는 것이 가능합니다(아래 "robots.txt에 의해 차단됨" 섹션 참조). 예시:

User-agent: *
Allow: /wp-content/uploads/
Disallow: /wp-admin/
Disallow: /readme.html

위와 같이 설정될 경우 /wp-admin/으로 된 URL은 모두 색인 생성에서 제외됩니다.

또한, Yoast SEO나 Rank Math SEO 등 SEO 플러그인에서 세부적으로 noindex 메타 태그를 지정할 수 있습니다.

색인이 되어야 할 항목이 robots.txt 파일이나 SEO 플러그인에 의해 noindex가 지정되었다면 확인하여 noindex를 해제해야 합니다.

상기 그림에서 /embed/가 끝에 붙는 URL은 포스트를 페이스북, 트위터, 네이버 블로그, 네이버 카페, 카톡 등에 공유할 때 임베드되는 페이지인 것 같습니다. 이 블로그의 임베드 URL에는 noindex 메타태그가 추가되어 있습니다.

임베드 페이지에 대한 색인 여부는 정확히 어디에서 제어되는지 모르겠습니다. Duplicate URL with “/embed/” at the end? 글을 보면 SEO 플러그인에 의해 제어될 것 같다고 하네요.

카테고리, 태그 등 아카이브 페이지가 색인되지 않도록 설정하는 방법

Rank Math나 Yoast SEO와 같은 SEO 플러그인을 사용하면 카테고리 페이지나 태그 페이지 등 특정 아카이브 페이지가 색인되거나 색인되지 않도록 설정할 수 있습니다.

카테고리, 태그 등 아카이브 페이지가 색인되지 않도록 설정하는 방법
Rank Math에서 카테고리 아카이브 로봇 메타 설정.

카테고리 페이지의 경우 Rank Math 검색엔진 최적화 » 제목 및 메타 » Post » 카테고리에서 카테고리 아카이브 로봇 메타 옵션을 활성화한 다음, index, noindex, nofollow 등의 로봇 메타를 지정할 수 있습니다. 태그 페이지도 동일하게 가능합니다.

보통은 색인(index)을 선택하여 색인되도록 하는 것이 좋습니다. 원하는 경우 "인덱스 없음"(noindex)와 "No follow"를 체크하여 색인이 되지 않도록 할 수 있습니다.

카테고리와 태그에 대해서는 다음 글을 참고해보세요.

Soft 404

삭제된 페이지나 포스트에 접근하려고 시도하면 404 에러가 발생합니다.

Soft 404 구글 서치 콘솔 오류

이 블로그에서 bbPress 플러그인을 사용하여 포럼 게시판을 만들었다가 삭제한 적이 있습니다. 이 때문에 아직도 일부 포럼 항목들이 구글 검색 결과에 노출되는 것 같습니다.

구글 서치 콘솔에서 해당 URL들을 제거하도록 요청할 수 있습니다.

robots.txt에 의해 차단됨

robots.txt에 의해 차단됨

robots.txt 파일을 사용하여 해당 사이트에서 크롤러가 접근(액세스)할 수 있는 파일들을 제어할 수 있습니다.

워드프레스에서는 기본적으로 다음과 같이 robots.txt 파일이 동적으로 자동 생성되어 적용됩니다.

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://example.com/wp-sitemap.xml

SEO 플러그인을 사용하여 robots.txt 파일을 생성하여 편집하거나 직접 FTP를 통해 robots.txt 파일을 업로드할 수 있습니다.

"robots.txt에 의해 차단됨" 섹션에서 색인되어야 하는 URL이 robots.txt에 의해 차단된 경우 robots.txt의 규칙을 수정하도록 합니다.

※ 티스토리의 경우 robots.txt 파일에 접근/편집할 수 없고 다음과 같은 robots.txt 파일이 모든 티스토리 블로그에 적용됩니다.

User-agent: *
Disallow: /guestbook
Disallow: /m/guestbook
Disallow: /manage
Disallow: /owner
Disallow: /admin
Disallow: /search
Disallow: /m/search

User-agent: bingbot
Crawl-delay: 20

티스토리 블로그를 운영하는 경우 위의 robots.txt 규칙에서 크롤링을 제한하는 URL들이 "robots.txt에 의해 차단됨" 섹션에 표시될 것입니다. 티스토리에서는 robots.txt 파일을 수정할 수 있는 방법이 없으므로 이 오류는 무시하시기 바랍니다.

참고


8 개 댓글

Leave a Comment

  1. 안녕하세요. 이번에 워드프레스를 시작했습니다만, 색인 신청후 바로
    아래와 같이 떠서 유효성 검사 중이라면 어떻게 해야할까요..? 부탁드립니다.

    중복 페이지, Google에서 사용자와 다른 표준을 선택함
    이러한 페이지는 색인이 생성되지 않거나 Google에 게시되지 않습니다.

    응답
  2. 안녕하세요 글 정말 잘보고있습니다! 이번에 문제가 좀 발생했는데 ㅠㅠ 워드프레스 방문자가 조금씩 늘고있다가 제가 발행한 글 전부가 순위권에서 보이지도 않을만큼 내려갔습니다..이유도 전혀 모르겠습니다. 보안도 깔려있고 사이트 자체 검색은 나오긴 해서요. 제가 그전에 취한 행동이라고는 글을 몇개 수정한 것 밖에 없었습니다. 이렇게 순위가 급락하는 경우에는 어떤 조치를 해야할까요...

    응답
  3. 구글 서치콘솔에 삭제 했던 게시물을 검색 결과에 표시하지 않으려고 일시적으로 URL 삭제 신청을 했습니다.(해당 URL만 복사 붙어넣기 함) 근데 해당 URL만 검색 결과에서 삭제하려고 했는데 구글에서 다른 글들도 보이지 않아서 뭔가 문제가 생긴것 같아요.
    구글 서치 콘솔에서 삭제-임시 삭제 항목-새 요청을 통해 일시적으로 삭제하려는 URL을 붙여넣기한 후 이 URL만 삭제 후 요청을 했는데 이 방법이 잘못된 건가요? 일시적으로 URL 삭제 시 6개월 동안 기다려야 한다고 하는데 혹시 이에 관련하여 알고 계신 부분이 있을까요?

    응답
    • 특정 URL의 삭제를 요청한다고 해서 다른 URL도 함께 사라지지는 않을 것입니다. 저도 간혹 삭제된 URL을 삭제 요청을 하는데, 이 때문에 다른 글들이 색인에서 사라진 적은 없었습니다. 다른 원인 때문에 검색 결과에서 사라진 것은 아닐까요?

      응답
      • 빠른 답변 감사합니다. 삭제 요청한 지 3주 정도 경과해서 요청 취소는 안되는 것으로 보입니다. 현재는 삭제 만료됨이라고 떠있네요.