最近 Googleの検索アルゴリズムに関する内部文書が流出したそうです123。
「Content Warehouse(コンテンツ倉庫)」は、Google検索の情報を貯める貯蔵庫です。
その使い方を示す「Google Search’s Content Warehouse API」の内部文書が GitHub に誤って公開されていたことで、Google検索の内部構造と従来の説明と食い違う実態が明らかになりました。
とはいえ、これまで検索エンジンの振る舞いから推測されていたことが追認された、という感じです。
ただ、Google検索という複雑なアルゴリズムの構造が整理されていて興味深いですね。
Alexandriaとか、Mustangとか、なんか かっこいいよね。
1. 3月ごろにGitHubに流出した?
流出元はGitHubで、一時的に誤って公開されたことが原因と考えられます。
文書の内容を確認したGoogleの元社員は、
「文書はGoogleの内部ドキュメントやコーディング基準と合致しており信憑性が高い」
と匿名で述べています3。
文書にはGoogleの内部サイトへのリンクが多数含まれており、3月から5月の間に外部に公開され、外部サイトにも記録されていたようです。
2. Content Warehouse APIは「知識の倉庫の説明書」
「Content Warehouse」は、Googleの検索エンジンにおける「知識の倉庫」。
Googleの膨大なコンテンツデータベースを一元的に管理し、検索プロセスに必要な情報を各サブシステムに供給する重要な役割を担っているのです。
「warehouse」は、「倉庫、蔵、保管庫、収納庫」という意味です4。
「Content Warehouse API」は、いわば「知識の倉庫の使う鍵」です。
検索システムの中核を成すコンポーネントの一つ。
検索アルゴリズムのリークで明らかになったのは、このAPIで管理されているデータの詳細や、それらがランキングにどう影響しているかという点でした。
「経理部に行ったら会社活動の全体がわかる」みたいな話だね。
2-1. Google検索のアーキテクチャ(構造)
Googleの検索アルゴリズムを構成するマイクロサービスが明らかになりました。
最終的な検索結果ができるまでには、検索プロセスのさまざまな段階を分割して管理されています。
- Trawler(ページを探す):
ウェブをクロールし、ページを発見してダウンロードします。
クロールキューを維持し、ページの更新頻度を把握します。 - Alexandria(インデックスを作成する):
ダウンロードしたページを解析し、インデックスを作成します。
ページをインデックスの階層(tier)に分類するSegIndexerも含まれます。 - Mustang(順位付けをする):
主要なスコアリング、ランキング、検索結果の提供を行います。
Ascorer(主要なランキングアルゴリズム)やNavBoost(クリックデータに基づく再ランキング)などのサブシステムを含みます。 - SuperRoot(検索入力を解釈する):
検索システムの中枢としてクエリを受け取り、各サーバーにタスクを割り当て最終的な検索結果を組み立てます。
「世界一のシステム」ってこんな構造になっていたんだー。
なんか…かっこいい(小並感)!
さらに、補助的なシステムの存在も明らかになっています。
- WebMirror:
コンテンツの重複排除や正規化を担当する - DocInfo:
ページの履歴情報を管理する - Twiddlers:
NavBoostやFreshnessBoostなど、検索結果の再ランキングを行う機能群
このようなマイクロサービスが分散システム上で独自のタスクを担当し、互いに連携しながら検索プロセスを実行するように設計されています。
Google検索の複雑なアルゴリズムは、効率的で高品質な検索結果を生成するために、各コンポーネントが独自の役割を果たすようになっているのです。
3. Googleのこれまでの説明との齟齬
内部構造が明らかになると、これまでのGoogleの説明と食い違う部分が出てきました。
3-1. ドメインオーソリティについて(siteAuthority)
Googleは「ドメインオーソリティ」のようなサイト全体の権威性を測る指標を使っていないと長年主張してきました。
しかし、実際には「siteAuthority」という指標が存在していたようです。
これはQ*というランキングシステムで使われています。
3-2. クリックデータの利用(NavBoost)
Googleはクリックデータをランキングに使っていないとも繰り返し発言してきました。
しかし、実際にはNavBoostというシステムでクリックに関する様々な指標を利用していることがわかりました。
検索結果のクリック率や滞在時間のようなユーザー行動がランキングに影響を与えているのです。
3-3. サンドボックスの存在(hostAge)
新しいウェブサイトを一定期間ランキングで不利にするサンドボックスは存在しないとGoogleは述べてきました。
しかし、実際には新しいスパムをサンドボックス化する目的で「hostAge」という指標が使われていることが明らかになりました。
3-4. 著者情報の利用(author)
Googleは著者に関する情報を明示的に保存し、ページ上のエンティティが同時に著者であるかどうかも判断しています。
著者の専門性(E-E-A-T)を測る上で、これらの情報が使われている可能性が高いです。
3-5. 内部リンクの無効化
PenguinアップデートはWebSpamを対象としたアルゴリズムでしたが、内部リンクの一部をカウントしないことで、過剰な内部リンク最適化を抑制している可能性が示唆されました。
4. 重み付けはわからない
Google検索アルゴリズムの内幕がわかったのは興味深いですが、検索結果に関係する一番大事なことはわかっていません。
それは、各指標の重要度です。
検索アルゴリズムでは、何が特徴量になっているのかだけではなく、各指標の重み付けが重要です。
例えば、仮にNavBoostとsiteAuthorityという2つの指標で極端な差(1000倍)があれば、最終的な順位は全く変わってしまいます。
つまり、この各指標の重み付けがわからないので、まだアルゴリズムの全貌がわかった、とは言えないわけです。
(補足)
- Secrets from the Algorithm: Google Search’s Internal Engineering Documentation Has Leaked
- Google Search Algorithm Leak: Internal Docs Reveal Secrets of Ranking, Clicks, and More
- Google API Content Warehouse Leak – Dealers League
- warehouseとは・意味・使い方・読み方・例文 – 英ナビ!辞書 英和辞典