グーグルの検索エンジン

再び「みんなの意見」は案外正しい ジェームズ・スロウィッキー著(角川書店)から

 グーグルが設立されたのは1998年。ヤフーが検索エンジン業界で圧倒的強さを誇っていた頃だ。だが、数年もしないうちにインターネットを日常的に使う人にとって、グーグルが標準的な検索エンジンになった。
 その理由は、正しいページをすばやく探せるということに尽きる。300億にものぼるウェブページを検索しながら瞬時に正しい結果を出すために、グーグルは集団の知恵を使っている。
 グーグルの技術の詳細は一般に公開されていないが、そのシステムの根幹にあるのはページランク(ページ順位)アルゴリズムである。今や伝説となった1998年発表の「The anatomy of a large-scale hypertextual web search engine(ハイパーテキスト対応大規模ウェブ検索エンジンの分析)」という論文の中で、グーグルの創設者サーゲイ・プリンとラリー・ペイジがこの技術をはじめて定義した。この仕組みをグーグルは次のように説明している。

 ページランクは、ウェブの膨大なリンク構造を用いて、その(民主的な)特性を生かします。ページAからページBへのリンクをページAによるページBへの支持投票と見なし、グーグルはこの投票数によりそのページの重要性を判断します。しかしグーグルは単に票数、つまりリンク数を見るだけではなく、票を投じたページについても分析します。「重要度」の高いページによって投じられた票はより高く評価されて、それを受け取ったページを「重要なもの」にしていくのです。



 わずか0.01秒でグーグルはインターネット上のどのページにいちばん役に立ちそうな情報が潜んでいるか調べ、いちばん得票数の多いページを検索結果の上位に挙げる。しかも一番目か二番目に表示される検索結果に探している情報が含まれていることが多い。
 右の説明にあるとおり、あるページへのリンクが多ければ多いほどそのページが最終結果に与える影響は大きい。そして、最終投票結果は雄牛の体重予想のような単純な平均値ではなく、加重平均値で表される。そういう意味ではグーグルは共和制であって完璧な民主制ではない。
 だが、あるサイトが集団(グーグルという検索エンジン)の最終判断に大きな影響を与えるほどの影響力を得たのは、小さなサイトがそのサイトに数多く投票(リンク)したのが理由であることは間違いない。小さなサイトが間違ったサイトに大きな影響を行使する力を与えてしまったら、グーグルの検索結果は正確ではなくなってしまう。最終的に賢い結果を手に入れるには、上から下までシステムを通じてみんな賢くなければならないのだ

 コンピューターやインターネットにあまり詳しくないので、間違っているかもしれないが、グーグルという検索エンジンは、そのサイトのアクセスランキング数をもとにして検索結果を出しているらしい。インターネットには、あらゆるタイプの人がアクセスしているので多様性がある。また、アクセスしている人の目的はそれぞれ違うので独立性がある。しかも場所を選ばないでアクセスできるので分散性もある。問題は集約性で、この部分にグーグル検索エンジンのノウハウがあるのだと思う。著者は、加重平均を使用していることをポイントに挙げている。グーグル検索エンジンには、昨日書いた賢い集団の四つの要件が満たされている。また、グーグルという会社は、インターネットの中でどうやったら正しい集約性を実現できるかを真剣に検討している会社なのだと思う。