6.142022
クローリングとは?営業リスト作成時のクローリングの仕組みについて解説!

営業リストを作成している企業のホームページや、営業リストを自動作成してくれるツールを見ると頻繁に「クローリング」という言葉が出てきますよね。
でも正直はっきりした意味は分からずに、何となく聞き流している人も多いのではないでしょうか。
今回はそんなクローリングについて、その意味と仕組みについて詳しく解説していきます!
目次
クローリングについて理解しよう
まずは、クローリングがどういったものかご紹介していきます。
■クローリングとは?
クローリングとは、インターネット上にあるウェブサイトや画像などの情報を収集し、自動的に検索データベースを作成してくれる処理のことです。
これを行ってくれるプログラムのことを「クローラー」と呼び、クローラーが行う作業なので「クローリング」と言われているのです。
クローリングとは「這いまわる」という意味
インターネットに詳しくない人からすれば、そもそもクローリングなんて聞いたこともないよという人もいるでしょう。確かにクローリングという単語は何となく英語っぽいけど、日常生活で使う言葉じゃないですし、聞いただけでは意味が分かりませんよね。
クローリングの基になっている言葉は「クロール」で、英語では「這う」という意味を持っています。
皆さんもなじみのある水泳のクロールも実はこの言葉が由来です。水面を這うように泳ぐことからその名がつけられたと言われています。
クローリングとは、検索プログラムがインターネット上を這いまわり、必要な情報をデータベース化してくれるイメージです。
みんな毎日のようにクローリングしている
ここまで読まれて勘のいい方はお気づきかもしれませんが、クローリングとはまさにインターネット検索そのものなのです。
みなさんが何か調べたいことがあるときには、インターネットを開いて検索窓にキーワードを入れて検索をかけますよね。
実は、検索ボタンを押すと同時に検索ロボット(クローラー)が動き出し、世界中のウェブサイトを巡回(クローリング)しながらあなたが求めていると思われる情報が掲載されたサイトを探し出し、検索結果として表示しているのです。
そう考えるとクローリングは急に身近な言葉に感じてくるのではないでしょうか。
有名なクローラー
さらにクローリングを身近に感じてもらえるように、ここでは有名な検索エンジンのクローラーをいくつかご紹介します。
Googlebot:Google検索
Bingbot:Bing検索(Microsoftが運営)
Yahoo Slurp:Yahoo検索(日本以外)
この3つは特に有名なクローラーなので聞いたことがあるよという人も多いでしょう。さらにこの他にも数多くのクローラーが存在し、画像専門のクローラーや広告専門のクローラーなど専門性に特化したクローラーもあります。
クローリングとスクレイピングの違い
また、クローリングとよく混同されやすい言葉としてスクレイピングがあります。二つの違いはなかなか分かりづらい点は多いのですが、簡単に言えば次のようになります。
クローリング:クローラーと呼ばれる検索ロボットが目的に応じてサイトを巡回し、必要な情報を収集する処理
スクレイピング:ウェブサイトの大量の情報から余分な情報を削り、必要な情報だけを抽出する処理
どちらもウェブサイト上から情報を収集する方法ではありますが、データへのアプローチの仕方や情報処理の方法が全く異なっており、ネット業界では明確に区別されて使用される場合がほとんどなので注意しましょう。
クローリングの仕組みについて
次に実際にどのようにクローリングが行われているのかを簡単にみていきましょう。
クローリングは次の3つの手順を繰り返しながら進められます。
ページ情報の収集
まずはデータベースに登録されているサイトからリンク先のページへ移動し、そのページに記載されている情報を収集します。
情報解析
情報の収集が終わると主にHTMLのコードやPDFファイルの情報を解析し、検索主の意図に近いと思われるリンクを探します。
リンクを発見し遷移
リンクを発見するとそのページへ遷移し、またページ情報の収集を開始します。
この「情報収集」⇒「情報解析」⇒「ページ遷移」⇒「情報収集」というサイクルを繰り返しながらデータベース(検索結果)を完成させます。
頻繁にクローリングされるには条件がある
ここまでの解説で、検索結果に表示されるには検索ロボットのクローリングを受けなければならないのだと分かります。
しかし、実際にはネット上にあるサイトはほぼ無限であり、すべてのサイトをクローリングするのは不可能です。
では、どうやって検索ロボットはクローリングする対象を選んでいるのでしょうか?
その条件は大きく2つあると言われています。
まず一つ目は、更新頻度が高いことです。更新頻度が高ければ、それだけ情報の鮮度も高く有益な情報であるとロボットが判断をしてくれます。逆を言えば、ほとんど更新されていないサイトでは一度もクローリングの対象とならない可能性もあるのです。
二つ目は、検索エンジンが重要な情報が記載されていると判断したページです。その判断基準は検索エンジンによってさまざまに設定されており、明確な基準は分かりません。しかし、多くの読者にとって有益な情報が載っているサイトについては、仮に更新頻度が少なかったとしてもクローリングの対象になりうるようです。
まとめ
今回の記事では、営業リスト作成時にも活躍するクローリングについて、その意味や詳しい仕組みなどを解説してきました。
クローリングと言われるとなにやら難しいことのように感じるかもしれませんが、中身はみなさんがいつも行っているネット検索を基本的な仕組みは同じなのです。
営業リスト作成ツールを試す際や、業者へリスト作成を依頼する際などでもこのクローリングの知識を使って、上手にツール・業者選びを行ってみてください。