検索エンジンの仕組み
検索エンジン(サーチエンジン)はWebページの収集と検索という2つの機能を持っています。
Webページの収集は,人間が手作業で行う場合と,検索ロボットと呼ばれる情報収集のためのプログラムを使用する場合があります。
検索ロボットは自動的にWebページのハイパーリンクをたどりながら、ページの内容を逐一記録していきます。そしてリンクの構造やページの内容を分析し、そのページに含まれるキーワードとそのページの場所との対応表を作成します。
手作業で情報を集める場合は、検索エンジン(サーチエンジン)の作成者が実際にWWWを巡回し,見つけたページの内容を表すキーワードを考え、そのページのURLとキーワードの対応表を作ったり、逆にWebサイトの作成者が自分のサイトの情報(キーワードとURL)を検索エンジン(サーチエンジン)の作成者に申告し、リストに登録してもらうこともあります。
そして作成されたリストを元に検索エンジン(サーチエンジン)で検索を行い、該当するWebページをユーザに提示します。
現在ではほとんどの検索エンジン(サーチエンジン)がロボット方式を採用しています。
検索エンジンでWebページを検索
検索エンジン(サーチエンジン)には、大きく分けてロボット型検索エンジンとディレクトリ型検索エンジンの2種類があります。
・ロボット型検索エンジンとは、クローラーと呼ばれる ロボット(スパイダーとも呼ばれます)が、Webページのリンク構造をたどり新たなデータを収集するタイプの検索エンジンです。ディレクトリ型検索エンジンがWebサイトごとの検索(検索結果として各サイトのトップページが表示される)なのに対し、ロボット型検索エンジンはページごとの全文検索を行います。同じサイトの異なるページも検索エンジン(サーチエンジン)の対象になるため、検索結果が膨大な件数になることもあります。ロボット型検索エンジンの代表例としては、インフォシークや
Google があります。
・ディレクトリ型の検索エンジンは、人手で構築した「カテゴリ別」に分類されたデータベースを擁する検索エンジン(サーチエンジン)のことです。第三者が人為的に検索結果を変えたりする事ができない為、質の高いWebサイトの検索が出来るのが特徴の検索エンジン(サーチエンジン)です。ディレクトリ型検索エンジンの代表例としては、Yahoo!があります。
全文検索型の検索エンジン(サーチエンジン)の情報収集はロボットによって行われているため、全文検索型はロボット型検索エンジンと呼ばれています。
しかしディレクトリ型におけるサイトの収集と分類をロボットが行っている場合もあり、ロボット型検索エンジンが全文検索型とは必ずしも言えなくなっています。
代表的な検索エンジン(サーチエンジン)のほとんどがディレクトリ型検索エンジンとロボット型検索エンジンの両者を併用しています。
|