robots.txtとクローラーの関係〜よくあるrobots.txtへの誤解〜
ここで書くのは基礎編と称して書くので、知ってる人には言わずもがななんですけども。こちらはSEO屋で売る側なので、こういう風にやるといいですよ〜というおはなしのシリーズ。
クローラーの話を書いてきて、前回はサイトマップに関する誤解の話でした。
今回は、robots.txtの誤解の話をします。
これもよく誤解されているんですよ。
robots.txtで、検索エンジンのクローラーを制御すると言いますよね。
でも、「読ませない」指定は出来ますが、「読め」とは言えないんです。
そもそもrobots.txtというのは、検索エンジンのクローラー向けのメッセージの文書です。
ウェブサイトのドメインのルートに置いておきます。
必ずしもすべてのクローラーが従う義務はない紳士協定なんですが、主要な検索エンジンはこの文書を尊重しています。
こんな風に書きます。
−−−−−−−−−−−−
User-agent: *
Disallow: /bbs
Disallow: /archive
Disallow: /image
−−−−−−−−−−−−
Disallowということから分かるように、「読みに行くな」という禁止なんです。
この例では、bbsと、archiveと、imageのディレクトリは読みに行くな、というメッセージになっています。
robots.txtは、検索エンジンに収集させたくないところを指定するために使います。
同様に、各ページのHTMLのヘッダ部分にメタタグで、こういう風に書くのもありますよね。
<meta name="ROBOTS" content="INDEX,FOLLOW">
これもクローラーへのメッセージで、このページを「インデックスしてもいいよ、リンクをたどってもいいよ」という意味になっています。
でも、この記述は意味ありません。全部のページに貼っている方がいますが無駄だからやめたほうがいいのです。
あるページをインデックスするかどうか、リンクをたどるかどうかは検索エンジンが判断することなので、ボクらは一切指示できません。
有効なのは、次のメタタグだけです。
<meta name="ROBOTS" content="NOINDEX,NOFOLLOW">
これは、このページをインデックスしないでね、リンクもたどらないでね、という意味です。
これは紳士協定ではありますが、主要検索エンジンでは尊重されるので、このページはインデックスされませんし、そこからのリンクはたどられなくなります。
つまり、ボクらは検索エンジンに対して、インデックスするな、リンクたどるな、という形で制御できるのみなんですよ。
そして、検索エンジンは、インデックスするなと主張しているサイトを除いて、どのサイトをどの程度インデックスするか、さらには検索結果で上位にランクさせるかについて一方的に権利を持っている絶対的な存在なんです。
このあたりを誤解している人を見かけるんですよね。
だから、通常はSEOというときには、robots.txtとこのメタタグのrobotsは話題になりません。
唯一話題になるのは、印刷用ページなどがあると複製問題があるので、印刷用ページはnoindexにしたりするくらいなんですよ。
次に続きます。
written by asotetsu August 16, 2007
- -