誤って公開されたGoogle検索の内部文書から見える「知識の倉庫の使い方」（Content Warehouse API）

最近 Googleの検索アルゴリズムに関する内部文書が流出したそうです¹²³。

「Content Warehouse（コンテンツ倉庫）」は、Google検索の情報を貯める貯蔵庫です。

その使い方を示す「Google Search’s Content Warehouse API」の内部文書が GitHub に誤って公開されていたことで、Google検索の内部構造と従来の説明と食い違う実態が明らかになりました。

とはいえ、これまで検索エンジンの振る舞いから推測されていたことが追認された、という感じです。

ただ、Google検索という複雑なアルゴリズムの構造が整理されていて興味深いですね。

Alexandriaとか、Mustangとか、なんかかっこいいよね。

1. 3月ごろにGitHubに流出した？

流出元はGitHubで、一時的に誤って公開されたことが原因と考えられます。

文書の内容を確認したGoogleの元社員は、
「文書はGoogleの内部ドキュメントやコーディング基準と合致しており信憑性が高い」
と匿名で述べています⁴。

文書にはGoogleの内部サイトへのリンクが多数含まれており、3月から5月の間に外部に公開され、外部サイトにも記録されていたようです。

「Content Warehouse」は、Googleの検索エンジンにおける「知識の倉庫」。
Googleの膨大なコンテンツデータベースを一元的に管理し、検索プロセスに必要な情報を各サブシステムに供給する重要な役割を担っているのです。

warehouse

「warehouse」は、「倉庫、蔵、保管庫、収納庫」という意味です⁵。

「Content Warehouse API」は、いわば「知識の倉庫の使う鍵」です。
検索システムの中核を成すコンポーネントの一つ。

検索アルゴリズムのリークで明らかになったのは、このAPIで管理されているデータの詳細や、それらがランキングにどう影響しているかという点でした。

「経理部に行ったら会社活動の全体がわかる」みたいな話だね。

Googleの検索アルゴリズムを構成するマイクロサービスが明らかになりました。

Google検索アルゴリズムの主要な部分

最終的な検索結果ができるまでには、検索プロセスのさまざまな段階を分割して管理されています。

Trawler（ページを探す）：
ウェブをクロールし、ページを発見してダウンロードします。
クロールキューを維持し、ページの更新頻度を把握します。
Alexandria（インデックスを作成する）：
ダウンロードしたページを解析し、インデックスを作成します。
ページをインデックスの階層（tier）に分類するSegIndexerも含まれます。
Mustang（順位付けをする）：
主要なスコアリング、ランキング、検索結果の提供を行います。
Ascorer（主要なランキングアルゴリズム）やNavBoost（クリックデータに基づく再ランキング）などのサブシステムを含みます。
SuperRoot（検索入力を解釈する）：
検索システムの中枢としてクエリを受け取り、各サーバーにタスクを割り当て最終的な検索結果を組み立てます。