Su-Jine SEOコラム > 第10回 Googleのフレッシュクロール対象サイトにするには?

Su-Jine
SEOコラム > 第10回 Googleのフレッシュクロール対象サイトにするには?

TOP > SEOコラム > 第10回 Googleのフレッシュクロール対象サイトにするには?

UNFINISHED


国内主要検索エンジン5社に完全対応した国内最安値圏のSEO(検索エンジン最適化
www.unfinished.jp

2万サイト以上の実績


ホームページの売れない盲点・落とし穴をお教えします
www.hpuriageup.com

日本語ドメインで SEO


ドメイン取るならお名前.com
www.onamae.com

SEM/SEO対策のフルプロモート


確かなSEMサービスをフルサービスで提供
www.fullpromote.jp

検索順位チェックツール


競合サイトの順位変化も一目瞭然
seopro.jp

第10回 Googleのフレッシュクロール対象サイトにするには?

[2004/03/14]

 前回のコラムの続きです。フレッシュクロール対象サイトにするにはどうすればよいか?についてです。ちょっと専門的な用語も出てきますが、簡単に解説をするつもりですので頑張ってください。

 まず、フレッシュクロール対象サイトに関する有力な記事を紹介します。

 上記サイトを見ていると、フレッシュクロールに関するキーワードがいくつか出てきます。以下、上記サイトからの引用です。これらについて私なりの意見を書いていきたいと思います。

  1. PageRank 値 (『Google フレッシュクロールの仕組み・条件 (後編)』から引用)

    Google ツールバーで見たときの PageRank値。目安として 3。ただ、観察している限り、PageRank値がなくても登録されるケースもあり、後述する"3"との関係の方が高いかもしれません。

  2. 更新頻度 (『Google フレッシュクロールの仕組み・条件 (後編)』から引用)

    先述した "1" のフレッシュクロール対象となる条件としては、更新頻度はある程度関与していると思われます。更新されないサイトにクロールが来ることは意味がないのであり、従ってある程度定期的にWebが更新されていることは条件になると推測されます。

  3. 外部サイトからのリンク (『Google フレッシュクロールの仕組み・条件 (後編)』から引用)

    PageRank値そのものよりも、こちらの条件の方が重要なようにみられます。つまり、既にフレッシュクロール対象となっている PageRank の高いWebページからリンクされることでフレッシュクロールが定期的に行われているような様子がうかがえます。

  4. 全ての .html の属性に実行権限(パーミッション:755)を与える (『Googleフレッシュクロール(fresh crawl) 連日更新/毎日更新/小更新/プチ更新』から引用)

    この設定は SSI を使ったファイルに対して通常は、If-Modified-Sinceに対して 304(Not Modified)更新なしを返すのを(あるいは返さないのを)、200(OK)を返す設定に変更するものです

 まず、1番目の「PageRank 値が 3以上」というのは例外が多いため (PageRank 1のサイトでもフレッシュクロールサイトはあるため) 信憑性が低いと思います。次に 2番目の「更新頻度」は飛ばして、3番目の「フレッシュクロール対象サイトからのリンク」を考えたいと思います。「フレッシュクロール対象サイトからのリンク」はWeb全体がフレッシュクロールサイトになってしまうため、違うのではないかと思います。例えば、Yahoo!のトップページはフレッシュクロール対象ページであり、その直下のディレクトリもフレッシュクロール対象ページになります。その直下のディレクトリもフレッシュクロール対象ページになり、Yahoo!に登録されているサイトは全てフレッシュクロール対象ページになってしまいます。結局全てのWebページがフレッシュクロール対象サイトになってしまいますので、この条件は当てはまらないのではないかと考えています。

 飛ばした 2番目の「更新頻度」ですが、私はこの「更新頻度」が一番重要な要因だと考えています。これは 4番目のIf-Modified-Sinceヘッダと絡んでいて、更新が多いサイトはかなりの確率で200 OKを返すからです。また、If-Modified-Sinceヘッダについて、Googleの「Web マスターのための Google 情報」にも次のように書かれています。

『Web サーバーが If-Modified-Since HTTP ヘッダーに対応していることを確認してください。この機能は、Google が前回サイトをクロールした後にコンテンツが変更されたかどうかを、サーバーからクローラに伝えるものです。この機能に対応することにより、帯域幅や経費を削減できます。』

 ここで、「If-Modified-Sinceヘッダって何?」と言う方も多いと思いますので、簡単に説明したいと思います。クローラは対象ファイルが前回クロールした日時から更新したかしていないかをチェックするのに、「そのファイルは2004年03月08日の午前0時以降に更新されていますか?」とWebサーバに訪ねます。Webサーバは「はい、更新されています。」か「いいえ、更新されていません。」のどちらかの回答をします。この「2004年03月08日の午前0時以降に更新されていますか?」の質問文が「If-Modified-Since: Mon, 08 Mar 2004 00:00:00 GMT」ヘッダで、「はい、更新されています。」に対応するのが「HTTP/1.1 200 OK」です。「いいえ、更新されていません。」に対応するのは「HTTP/1.1 304 Not Modified」と言うことになります。

 何となくイメージはつかめましたか?簡単に書くと、更新されたかされていないかをクローラが尋ねたときに、「更新されましたよ」と答える方がたくさんクローラが来るようになるのでは?と言うことを書いているわけです。

 しかし、ここで疑問が出てきます。下記の表を見てみるとわかるとおり、フレッシュクロール対象サイトの場合は 10日間の内 6回更新した場合、頻繁に更新しているサイトと言うことがわかりますが、月に 1度しかクローラが来ないサイトの場合は同じ回数更新していたとしても 1回しか「更新されていますか?」と問い合わせられないため、「頻繁に更新しているサイト」と判断できないのです。

更新日フレッシュクロール対象サイトフレッシュクロールではないサイト
クローラアクセス更新有無クローラアクセス更新有無
2004/03/01 (月)-
2004/03/02 (火)--
2004/03/03 (水)-
2004/03/04 (木)---
2004/03/05 (金)-
2004/03/06 (土)-
2004/03/07 (日)--
2004/03/08 (月)--
2004/03/09 (火)
2004/03/10 (水)--
10回クロール6回更新1回クロール6回更新

 従って、フレッシュクロール対象サイトになるには更新されたという情報をクローラに伝える何かが必要となります。この続きは次回のコラムで書きたいと思います。

 今回のコラムで出てきたIf-Modified-Sinceヘッダですが、イメージはつかめましたか?ちょっと難しいので、実際に体験できるツール「If-Modified-Sinceチェックツール」を作りました。是非お試しください。




広告掲載について - Su-Jineについて - サービス一覧 - ヘルプ

SEO対策検索エンジン - アクセスアップS-rank - smoz - ストア

Copyright © 2010 Su-Jine All rights reserved.