구글 검색 알고리즘 문서 유출 및 주요 내용 (+ 유출된 문서 URL)

Last Updated: 2024년 06월 01일 댓글

최근 2,500페이지에 달하는 구글의 중요한 검색 알고리즘 내부 문서가 유출되었습니다. 이 문서들은 구글이 추적하는 데이터와 검색 순위 알고리즘에 사용될 수 있는 정보에 대한 것을 담고 있습니다. 구글은 유출된 자료에 대하여 언급을 하지 않다가 해당 문서들이 실제 구글 내부 문서임을 인정했습니다. 하지만, 구글은 유출된 데이터가 구글의 현재 랭킹 결정 요소와 일치하지 않거나 최신 정보가 아닐 수 있으므로 불완전하고 오래된 정보를 기반으로 억측을 하지 말 것을 경고하였습니다.

유출된 자료를 분석한 전문가들에 의하면 구글이 SEO에 대하여 주장해왔던 내용과 일치하지 않은 정보도 있는 것으로 밝혀지고 있습니다.

구글 검색 알고리즘 문서 유출 및 주요 내용 (+ 유출된 문서 URL)

구글 검색 알고리즘 문서 유출 건에 대한 핵심 포인트

  • 문서의 진위 여부 확인: 구글은 유출된 문서가 진본임을 인정하였으며 해당 문서들은 구글이 추적하는 다양한 데이터에 대한 상세한 정보를 제공하고 있습니다.
  • 데이터 사용: 공개된 문서에 의하면 구글은 클릭 수와 크롬 사용자 데이터를 수집하는 것으로 밝혀졌습니다. 구글은 이러한 데이터가 검색 순위에 영향을 미치지 않는다고 주장해왔습니다.
  • SEO(검색엔진 최적화) 업계에 미치는 영향: 이번 유출 사건은 SEO, 마케팅, 퍼블리싱 업계에 미치는 파장이 상당할 것으로 예상됩니다.
  • 구글의 반응: 구글은 유출된 정보를 기반으로 검색 알고리즘에 대한 잘못된 추정(가정)을 하지 않을 것을 강조하고 있습니다.
  • 관련 업계에 미치는 영향: 검색 순위 결정을 위해 구글이 선택하는 요소들은 소규모 퍼블리셔에서 온라인 상점(쇼핑몰)에 이르기까지 광범위한 비즈니스에 영향을 미칩니다. 유출된 문서는 구글이 어떤 생각을 하는지에 대한 통찰력을 제공하지만, 데이터의 정확한 사용 방법은 명확하지 않습니다.

구글 검색 알고리즘 문서의 시사점

"Google Search Algorithm Leak: Internal Docs Reveal Secrets of Ranking, Clicks, and More"라는 글에서는 유출된 구글 내부 문서가 시사하는 점을 다음과 같이 요약하고 있습니다.

  • 순위 결정 시스템 및 특징: 공개된 문서에는 YouTube, Assistant, 웹 문서 등 다양한 서비스를 포괄하는 14,014개의 속성(attribute)을 가진 2,596개의 모듈로 구성되어 있습니다. 유출된 문서는 여기에서 확인할 수 있습니다. 문서는 일반인이 알아보기 어렵게 되어 있는 것 같습니다.
  • 구글의 이전 주장과 상반되는 내용:
    • 도메인 점수(Domain Authorigy; DA; 도메인 권한): 문서에 'siteAuthority'에 대한 내용이 있는 것으로 보아 구글은 사이트 전체에 대한 점수(권한)을 측정하고 있음을 시사합니다.
    • 클릭 수: 구글이 공개적인 부인에도 불구하고 NavBoost와 같은 시스템에서 검색 순위 결정에 클릭 데이터를 사용하는 것으로 나타났습니다.
    • 샌드박스(Sandbox): 공개된 문서에 의하면 'hostAge' 속성을 사용하여 신규 사이트를 (샌드박스로) 분류한다고 언급되어 있으며 이는 샌드박스 기간에 대한 구글의 부인에 상반됩니다.
    • 크롬 데이터: 과거 구글의 부인에도 불구하고 크롬 데이터가 랭킹 알고리즘에 사용되고 있음을 보여줍니다.
  • 순위 시스템 구조: 구글의 랭킹 시스템은 단일 알고리즘이 아닌 일련의 마이크로 서비스(Microservice)로 이루어져 있습니다. 주요 시스템으로 Trawler(크롤링), Alexandria(인덱싱; 색인 생성), Mustang(순위 결정), SuperRoot(쿼리 처리)가 있습니다.
  • Twiddlers: 검색 결과를 사용자들에게 제시하기 전에 검색 결과를 조정하는 순위 다시 매기기(re-ranking) 기능으로 NavBoost, QualityBoost, RealTimeBoost 등이 여기에 포함됩니다.
  • SEO 관련 사항:
    • Panda 알고리즘: Panda는 사용자 행동과 외부 링크에 기반한 점수 조정 기능(Scoring Modifier)을 사용하며 도메인, 서브 도메인, 서브 디렉토리 등 다양한 레벨에서 적용됩니다.
    • Authors(작성자): 구글은 작성자(저자) 정보를 명시적으로 저장합니다. 이는 랭킹 결정에서 작성자(저자)의 중요성을 시사합니다.
    • 순위 강등(Demotion): 앵커 불일치, SERP 불만족, 정확한 일치 도메인 등을 비롯하여 다양한 강등 요소가 적용됩니다.
    • 링크: 링크는 여전히 중요합니다. 페이지가 색인된 곳에 기반한 링크의 가치를 나타내는 sourceType 메트릭스가 포함됩니다.
    • 콘텐츠: 구글은 짧은 콘텐츠의 독창성(고유성)을 평가하고 토큰을 계산하여, 주요 콘텐츠를 앞부분에 배치하는 것이 중요합니다
  • 열린 질문(Open Questions): 유용한 콘텐츠 업데이트(Helpful Content Update)가 "Baby Panda"와 관련되어 있는지, NSR (Neural Semantic Retrieval)이 어떤 의미를 가지는지에 대해 고려합니다.
  • 전략적 조언: (해당 글에서 저자는) 양질의 콘텐츠를 작성하고, 홍보를 잘 하고, 끊임 없이 실험하여 SEO 전략을 테스트할 것을 조언하고 있습니다.

SEO 전문가들에 의하면 구글은 클릭 기반 사용자 신호를 사용하고 클릭 및 참여도를 구글 검색 결과에 반영한다고 합니다. 또한, 국가와 주/도 등 지역을 구분하는 평가한다고 합니다. 이외에도 다양한 정보가 공개되고 있습니다.

앞으로의 대응...

이번 구글 검색 알고리즘 문서 유출은 SEO 업계에 큰 혼란을 줄 것으로 보입니다.

SEO 업계에서 오랫동안 영향력을 가진 인플루언서인 Sparktoro CEO Rand Fishkin은 X(트위터) 게시글을 통해 "지난 수 십 년 동안 구글의 검색 부서에서 이러한 규모나 상세한 정보의 유출은 없었다"면서 세계에서 가장 비밀에 싸여 있는 구글의 내부 정보 유출이 갖는 의미를 설명하고 있습니다.

구글은 SEO에 대한 다양한 정보를 제공해왔지만, SEO 전문가들은 구글이 오랫동안 검색 알고리즘의 작동 방식에 대하여 정확한 정보를 공개하지 않았으며 일부 사항에 대해서는 거짓말을 했다고 주장하고 있습니다.

구글은 지난 2년 동안 큰 규모의 검색 알고리즘 업데이트를 단행해왔습니다. 그 과정에서 소규모 웹사이트들의 검색 유입이 감소하고, 반면 레딧(Reddit), 인스타그램 등과 같은 일부 대형 커뮤니티의 검색 유입은 증가했다고 합니다.

구글이 공개적으로 부인해왔지만 샌드박스 기간이 존재하는 것이 이번에 유출된 문서에서 밝혀졌습니다. 샌드박스는 신규 사이트들이 단기간에 검색 순위 상위에 노출되는 것을 억제하고, 특히 4~5개월의 긴 기간 동안 방문자 수가 거의 없어 중도에 블로그/사이트 운영을 포기하도록 하는 요소가 되고 있습니다.

구글은 웹 세상에서 절대 갑(甲)의 위치에 있기 때문에 구글의 의도를 잘 파악하여 대응하는 수밖에 없는 것 같습니다.

블로그로 성공하거나 유의미한 방문자 증가를 위해 독창적이고 퀄리티가 높은 글을 꾸준히 작성하는 것은 기본이고, 추가적인 노력이 필요한 것 같습니다. 페이스북 등 SNS나 네이버 지식인, 카페 등 외부 채널을 통해 홍보하여 외부 유입을 늘리는 것이 도움이 될 것입니다.

참고


댓글 남기기

Leave a Comment