
第9回 検索エンジンとは?
検索エンジンは、現在世界でもっとも利用されているインターネットサービスであるといえると思います。サーチエンジン、と呼んだり、ロボット検索とも呼びます。創業当初のYahoo!は、人手によって情報を分類していくディレクトリ型検索サービスを提供していました。このディレクトリ型は、人手ですからエンジンではない、つまり検索エンジンではありません。もっとも、現在のYahoo!、あるいは世界中のポータルのほとんどは何かしらの検索エンジンを採用しており、ディレクトリ型の検索サービスは、それだけでは既に成立し得ない時代になっています。
解説:小川 浩(フィードパス株式会社)
 |
[プロフィール]
お がわ・ひろし●1996年、デル、ゲートウェイの代理店としてマレーシアにて日系企業及び在住邦人向けのPC通販ベンチャーを創業するなど、アントレプレ ナーとして活躍。その後日立製作所を経てサイボウズにジョイン。feedpathの基本設計を考案し、現在に至る。ブロガーとしてSpeed Feed、「Web2.0BOOK」「ビジネスブログブック」シリーズなどの著作がある。
|
ロボット検索の仕組み
ロボット検索サービスの構造をおおざっぱに言ってしまうと、
1) 検索対象となる情報を収集するクローラー
2) 集まった情報を整理・保存するインデクサー
3) 整理された情報から適切な情報を探すサーチエンジンという組み合わせになります。
クローラーはWeb上にある情報をかき集めてくる、エージェント的なプログラムです。Webとはクモの巣の意味ですから、そのWebの上を縦横無尽に走り回るプログラムとして、スパイダーとも呼ばれます。情報を集めてくる作業をクローリング、あるいはスパイダリングとも言ったりします。
クローラーが集めてきた情報は、検索されやすいようなフォーマット(たいていはXML準拠のフォーマット)に加工されたうえでインデクサーと呼ばれるプログラムによってサーバー(インデックスサーバー)にリスト化されて保存されていきます。
サーチエンジンが、ユーザーがタイプした検索キーワード(この行為をクエリと言います)を、インデックスサーバーの中に蓄積されたデータのリストから取り出し、検索結果として返すわけです。
検索サービスの優劣を図る要素としては、クローラーが如何に速く大量のWebサイトの情報を収集(クローリング)してくるかというクローラーの性能、クエリ(検索)に対して如何に早く正確な回答を検索結果ページ(SERP=SearchEngine Result Page)に表示するか、が挙げられます。つまり、量と速度と精度が重要になります。
ロボット検索サービスが登場して間もない頃には、Yahoo!に代表されるディレクトリ型検索に比べると、検索結果数(=量)や速度についてこそ圧倒的にロボット型有利でしたが、逆に精度において分が悪かったのです。ところが、スパムサイトの侵入を防ぎ、HTMLベースのWebの非構造的な欠点をカバーできるだけの能力を備え始めると、この状況は大きく変わることになりました。
Googleの登場により検索エンジンの時代到来
Googleの創業者は同じスタンフォード大学で博士号取得を目指していた二人の学生、ラリー・ペイジとセルゲイ・ブリンです。ペイジとブリンは、ロボット型検索の検索精度が悪いのは、急速に膨張していくWebの成長速度にクローラーが追いついていない(つまりデータの収集とインデックスの更新が遅すぎる)ことと、検索キーワードに対する検索結果の関連性についての認識が正しくないせいであると考えました。そこで、この解決策として次の二つの方法が最善であるという結論に達したのです。
1)分散モデルによるスケーラブルなクローラー
2)被リンク数によるWebサイトの格付け
それまでのWebサイトの運営者は、基本的に強力なスーパーコンピューターをサーバーとして安定稼働させることを考えていましたが、Googleは反対に、「Web自体が大量のWebサーバーが接続されて動いているネットワーク」であることに着目して、低スペックでもいいからできるだけ多くのサーバーを配置して、同時に大量のクローラーを使って世界中のWebサイトをクローリングさせるという方式を採用したのです。
更に、Googleでは、Webサイトに(HTMLで)記載された情報を分析するだけではなく、他のWebサイトにリンクされている数が多ければ多いほど良いWebサイトである、という考え方を導入しました。それを更に押し進めて「人気があり、優れたサイトからリンクされていること」を重要視するアルゴリズム(PageRankと呼ぶ)を開発したのです。
こうして、分散型サーバーから放たれる無数のクローラーと、PageRankを中心とした優れたアルゴリズムにより、Googleは瞬く間に巨大なインデックスを持ち、他のどの検索エンジンよりも正確な検索サービスとなったのです。
今回のポイント
現在のWebビジネスを引っぱっているのは検索エンジンです。検索エンジンの仕組みを理解することが、SEOにもつながり、よいWebサイトを作る上でのショートカットとなります。
検索エンジンの概念図
次回につづく