네이버 서치어드바이저 수집 제한: 리디렉션된 페이지 문제

네이버 서치어드바이저에서는 매일 50개 URL을 수집 요청을 할 수 있습니다. 저는 이 사이트와 다른 워드프레스 블로그에 대하여 모든 포스트 URL을 추출하여 매크로 프로그램으로 매일 50개씩 수집 요청을 하고 있습니다. 하지만 며칠이 지나서 네이버 웹마스터 도구의 사이트 진단 페이지를 체크해보니 다른 워드프레스 블로그에서 제출된 URL들이 수집 보류가 된 것을 발견했습니다. 조금 더 자세히 살펴보니 아래 그림과 같이 "리디렉션된 페이지" 오류가 표시되었습니다.

네이버 서치어드바이저 수집 제한: 리디렉션된 페이지 문제

네이버 서치어드바이저 수집 제한: 리디렉션된 페이지 문제

비슷한 방법으로 URL을 추출하여 수집 요청을 했는데, 이 블로그에 대해서는 에러가 발생하지 않지만, 다른 사이트에 대해서는 리디렉션 페이지 문제가 나타나는지 궁금해졌습니다.

제출한 URL을 비교해보니 이 블로그의 경우:

https://www.thewordcracker.com/blog/%eb%8c%80%ed%99%94%ed%98%95-ai-%ec%b1%97gpt-%ea%b8%b0%ed%9a%8c-%ed%98%b9%ec%9d%80-%ec%9c%84%ed%98%91/

위의 같은 형식인 반면, 다른 블로그의 URL은 다음과 같이 끝에 "/"가 누락되어 있었습니다.

https://example.com/글제목

보통 브라우저에서 주소를 복사하여 붙여넣기 하면 끝에 슬래시가 붙습니다.

https://www.thewordcracker.com/

오래 전에 주소 끝에 슬래시가 붙는 문제에 대해 리서치를 한 적이 있습니다. 기술적인 부분과 관련되는 것 같습니다. 끝에 슬래시가 붙으면(이런 슬래시를 "트레일링 슬래시" 혹은 "후행 슬래시"라고 하네요) 속도가 조금 더 빨라진다는 것을 어떤 해외 블로그 글에서 읽은 기억이 있습니다.

여기에 대하여 구글링해 보면 복잡하게 설명된 경우가 많은데요. 쉽게 이해하자면 슬래시 여부에 따라 브라우저에서 디렉터리로 혹은 파일로 인식하게 된다고 합니다.

https://www.example.com/example/ -> 디렉터리
https://www.example.com/example -> 파일

파일이 아닌 주소에 트레일링 슬래시를 생략하게 되면 브라우저에서는 파일을 찾으려고 시도해보고, 파일이 없다면 디렉터리를 확인하게 된다고 합니다.

그러므로 슬래시를 누락하면 접속 속도에서 약간의 차이가 있을 수 있는 것 같습니다.

네이버 서치어드바이저에서 URL 수집 요청을 할 때 후행 슬래시를 누락하면 네이버에서는 슬래시가 있는 버전으로 리디렉션되는 것으로 인식하여 "리디렉션된 페이지" 문제를 반환하는 것으로 보입니다.

실제로 URL 끝에 슬래시를 모두 추가한 다음 수집을 요청하고 며칠이 지나니 정상적으로 수집되기 시작했습니다.

네이버 서치어드바이저 수집 요청

상기 그래프에서 주황색 막대가 수집제한된 페이지 수를 의미합니다. URL에 후행 슬래시를 붙이지 않고 수집 요청을 했을 때에는 모두 수집 제한이 되었지만, 후행 슬래시를 추가한 이후에는 수집 제한 항목이 사라졌습니다.

모든 URL의 끝에 슬래시를 일괄 추가하려는 경우 정규식(정규 표현식)을 이용하면 간편합니다.

네이버 서치어드바이저 수집 제한: 리디렉션된 페이지 문제 2

위와 같이 설정하여 모두 바꾸기를 클릭하면 모든 라인 끝에 슬래시(/)가 추가됩니다.

URL에 슬래시를 붙이거나 붙이지 않는 문제에 대한 자세한 사항을 구글 문서를 참고해볼 수 있습니다.

참고

일부 글에 제휴 링크가 포함될 수 있으며 파트너스 활동으로 일정액의 수수료를 받을 수 있습니다.

댓글 남기기

* 이메일 정보는 공개되지 않습니다.