【スポンサーリンク】

誤って公開されたGoogle検索の内部文書から見える「知識の倉庫の使い方」(Content Warehouse API)

誤って公開されたGoogle検索の内部文書から見える「知識の倉庫の使い方」(Content Warehouse API)

最近 Googleの検索アルゴリズムに関する内部文書が流出したそうです123

「Content Warehouse(コンテンツ倉庫)」は、Google検索の情報を貯める貯蔵庫です。

その使い方を示す「Google Search’s Content Warehouse API」の内部文書が GitHub に誤って公開されていたことで、Google検索の内部構造と従来の説明と食い違う実態が明らかになりました。

誤って公開されたGoogle検索の内部文書から見える「知識の倉庫の使い方」(Content Warehouse API)

とはいえ、これまで検索エンジンの振る舞いから推測されていたことが追認された、という感じです。

ただ、Google検索という複雑なアルゴリズムの構造が整理されていて興味深いですね。

誤って公開されたGoogle検索の内部文書から見える「知識の倉庫の使い方」(Content Warehouse API)

Alexandriaとか、Mustangとか、なんか かっこいいよね。

\記事が役に立ったらシェアしてね/
【スポンサーリンク】

1. 3月ごろにGitHubに流出した?

流出元はGitHubで、一時的に誤って公開されたことが原因と考えられます。

文書の内容を確認したGoogleの元社員は、
「文書はGoogleの内部ドキュメントやコーディング基準と合致しており信憑性が高い」
と匿名で述べています3

文書にはGoogleの内部サイトへのリンクが多数含まれており、3月から5月の間に外部に公開され、外部サイトにも記録されていたようです。

2. Content Warehouse APIは「知識の倉庫の説明書」

「Content Warehouse」は、Googleの検索エンジンにおける「知識の倉庫」。
Googleの膨大なコンテンツデータベースを一元的に管理し、検索プロセスに必要な情報を各サブシステムに供給する重要な役割を担っているのです。

warehouse

warehouse」は、「倉庫、蔵、保管庫、収納庫」という意味です4

「Content Warehouse API」は、いわば「知識の倉庫の使う鍵」です。
検索システムの中核を成すコンポーネントの一つ。

検索アルゴリズムのリークで明らかになったのは、このAPIで管理されているデータの詳細や、それらがランキングにどう影響しているかという点でした。

Content Warehouse APIは「知識の倉庫の説明書」

「経理部に行ったら会社活動の全体がわかる」みたいな話だね。

2-1. Google検索のアーキテクチャ(構造)

Googleの検索アルゴリズムを構成するマイクロサービスが明らかになりました。

Google検索アルゴリズムの主要な部分
  • Trawler(ページを探す)
  • Alexandria(インデックスを作成する)
  • Mustang(順位付けをする)
  • SuperRoot(検索入力を解釈する)

最終的な検索結果ができるまでには、検索プロセスのさまざまな段階を分割して管理されています。

  1. Trawler(ページを探す):
    ウェブをクロールし、ページを発見してダウンロードします。
    クロールキューを維持し、ページの更新頻度を把握します。
  2. Alexandria(インデックスを作成する):
    ダウンロードしたページを解析し、インデックスを作成します。
    ページをインデックスの階層(tier)に分類するSegIndexerも含まれます。
  3. Mustang(順位付けをする):
    主要なスコアリング、ランキング、検索結果の提供を行います。
    Ascorer(主要なランキングアルゴリズム)やNavBoost(クリックデータに基づく再ランキング)などのサブシステムを含みます。
  4. SuperRoot(検索入力を解釈する):
    検索システムの中枢としてクエリを受け取り、各サーバーにタスクを割り当て最終的な検索結果を組み立てます。
Google検索のアーキテクチャ(構造)

「世界一のシステム」ってこんな構造になっていたんだー。

なんか…かっこいい(小並感)!

さらに、補助的なシステムの存在も明らかになっています。

  • WebMirror:
    コンテンツの重複排除や正規化を担当する
  • DocInfo:
    ページの履歴情報を管理する
  • Twiddlers:
    NavBoostやFreshnessBoostなど、検索結果の再ランキングを行う機能群

このようなマイクロサービスが分散システム上で独自のタスクを担当し、互いに連携しながら検索プロセスを実行するように設計されています。

Google検索のアーキテクチャ(構造)

Google検索の複雑なアルゴリズムは、効率的で高品質な検索結果を生成するために、各コンポーネントが独自の役割を果たすようになっているのです。

3. Googleのこれまでの説明との齟齬

内部構造が明らかになると、これまでのGoogleの説明と食い違う部分が出てきました。

3-1. ドメインオーソリティについて(siteAuthority)

Googleは「ドメインオーソリティ」のようなサイト全体の権威性を測る指標を使っていないと長年主張してきました。
しかし、実際には「siteAuthority」という指標が存在していたようです。
これはQ*というランキングシステムで使われています。

3-2. クリックデータの利用(NavBoost)

Googleはクリックデータをランキングに使っていないとも繰り返し発言してきました。
しかし、実際にはNavBoostというシステムでクリックに関する様々な指標を利用していることがわかりました。
検索結果のクリック率や滞在時間のようなユーザー行動がランキングに影響を与えているのです。

3-3. サンドボックスの存在(hostAge)

新しいウェブサイトを一定期間ランキングで不利にするサンドボックスは存在しないとGoogleは述べてきました。
しかし、実際には新しいスパムをサンドボックス化する目的で「hostAge」という指標が使われていることが明らかになりました。

3-4. 著者情報の利用(author)

Googleは著者に関する情報を明示的に保存し、ページ上のエンティティが同時に著者であるかどうかも判断しています。
著者の専門性(E-E-A-T)を測る上で、これらの情報が使われている可能性が高いです。

3-5. 内部リンクの無効化

PenguinアップデートはWebSpamを対象としたアルゴリズムでしたが、内部リンクの一部をカウントしないことで、過剰な内部リンク最適化を抑制している可能性が示唆されました。

4. 重み付けはわからない

Google検索アルゴリズムの内幕がわかったのは興味深いですが、検索結果に関係する一番大事なことはわかっていません。
それは、各指標の重要度です。

検索アルゴリズムでは、何が特徴量になっているのかだけではなく、各指標の重み付けが重要です。

例えば、仮にNavBoostとsiteAuthorityという2つの指標で極端な差(1000倍)があれば、最終的な順位は全く変わってしまいます。

重み付けはわからない

つまり、この各指標の重み付けがわからないので、まだアルゴリズムの全貌がわかった、とは言えないわけです。

こちらもどうぞ。
Google検索と広告の矛盾を考える(2023年コアアップデートで落ちたサイトの特徴)
Google検索と広告の矛盾を考える(2023年コアアップデートで落ちたサイトの特徴)
最近の研究で、広告が多すぎるウェブサイトの評価がGoogleのコアアップデートで低下していたことが明らかになりました。特に固定されたフッター広告や動画広告などが主な原因で、確かに閲覧者にとっては集中を妨げ、読みにくくるなります。 しかし、ここで興味深いのは、Google AdSenseがアンカー広告のような形式を推奨している点です。 これは、検索エンジン最適化(SEO)と広告収入のバランスを取る際の齟齬を示しているとも言えます。 (参考) Winning & Losing B...

「わかりやすく」知りたい!検索傾向の変化(掛け合わせクエリ)
「わかりやすく」知りたい!検索傾向の変化(掛け合わせクエリ)
検索時に「わかりやすく」「なぜ」といったキーワードを付け足すことが増えています。 今の情報サイトに求められるのは「コンサルテーション(専門的な助言)」。 キーワードで表現される「思い」から想像して、解像度の高い答えを提供することが求められているようです。 検索って、見知らぬ人との「文通」みたいなんだね。 「〇〇 わかりやすく」「〇〇 なぜ」の深層心理 Googleによると、ここ5年の間に「〇〇 わかりやすく」「〇〇 なぜ」などのキーワードを付け足した検索がどんどん増えているよ...

「E-E-A-T」の理想と現実(情報の選別の難しさ)
「E-E-A-T」の理想と現実(情報の選別の難しさ)
ざっくり言えば、「E-E-A-T」は「どこの馬の背かわからない人」よりも「一角の人物」から情報を得よう、という考え方です。 しかし、それが実現しているわけではないですし、実現したから便利になるとも限りません。 たとえば、自分で「聞き込み」をしたいような場合には、この選別はかえって煩わしいことがあるからです。 自分に不要な情報が検索結果に出てこないでほしいけど、それが何かは見てみないことには言えないんだよね。 結局、検索エンジンにしてほしい「仕事」って何なんだろう。 このプロフ...

インターネット検索の機能不全と情報エコシステムの断絶(MFA)
インターネット検索の機能不全と情報エコシステムの断絶(MFA)
最近、インターネット検索が「物足りない」と感じることが増えました。自分以外にもそういう声をよく聞きます。 これは「情報エコシステムの断絶」という文脈でとらえてみると、わかりやすいかもしれません。 人為的なアルゴリズム変更によって、大手以外のサイトをまとめて「駆除」しようとしたせいで、かえってニッチが生まれ、質の悪いサイトが増殖したようなのです。 広告表示のためにハリボテ情報を上げまくる人々と、気に食わない情報をすぐに叩く人々が可視化されてしまって、情報の流通が阻害されているみ...

(補足)

  1. Secrets from the Algorithm: Google Search’s Internal Engineering Documentation Has Leaked
  2. Google Search Algorithm Leak: Internal Docs Reveal Secrets of Ranking, Clicks, and More
  3. Google API Content Warehouse Leak – Dealers League
  4. warehouseとは・意味・使い方・読み方・例文 – 英ナビ!辞書 英和辞典
QRコードを読み込むと、関連記事を確認できます。

誤って公開されたGoogle検索の内部文書から見える「知識の倉庫の使い方」(Content Warehouse API)
【スポンサーリンク】
タイトルとURLをコピーしました