ホームページ運用やSEO対策でよく耳にする「robots.txt」について解説しています。
robots.txtとは、クローラの巡回を制限するための構文です。検索エンジンにインデックスされたくない(検索結果に表示させたくない)コンテンツがある場合、robots.txtで該当部分を指定すれば、クローラからのアクセスを拒否することができます。
robots.txtで指定できる主な対象としては、以下のようなものが挙げられます。
・ウェブページ
クローラによってサーバーに高負荷がかかり、ページ表示が遅くなってしまう場合があります。それが原因で、ページが表示されるまでに数十秒もかかってしまったり、またサーバーがダウンするようなことがあっては、ウェブサイトへのアクセスを本当に必要とするユーザーに迷惑がかかってしまいます。このような場合はrobots.txtでクローラを制御する必要があるでしょう。
・画像ファイル
robots.txtを使えば、画像ファイルをGoogleの検索結果から除外することができます。ウェブサイトのページに対してはアクセスを認める一方、パーソナルディレクトリ内の画像はクロールの対象外にするなど、限定的に指定することも可能です。
・リソースファイル
ビデオファイルやオーディオファイルなど、そのデータが欠如してもページ構成に影響を与えないものについては、robots.txtでブロックすることができます。ただし、それらのコンテンツをブロックしたために、クローラがサイトを正しく判断できなくなってしまう可能性もあります。
robots.txtはウェブページへのアクセスをブロックする手段として有用ですが、それでも万能ではありません。むやみに使用すると、かえってページランクが落ちてしまうこともあるので注意しましょう。robots.txtについて、特に誤解されやすい3つのポイントについてご紹介します。
・robots.txtの指示は絶対ではない
たとえばGooglebotなど、信頼性の高いクローラならばrobots.txtの指示を守りますが、そのほかのクローラも同様に指示を守るとは言い切れません。絶対的な拘束力はないため、中には指示を無視してクロールしてくるものもあります。
・URL自体は生きている
robots.txtはあくまで検索結果に表示させないために使うものであって、ページそのものを完全に隠せるわけではありません。たとえばユーザーが該当ページのURLを入力しさえすれば、自由に閲覧することができます。コンテンツを完全に表示させたくない場合にはパスワードを設定するなど、ほかの方法を検討する必要があります。
・逆SEOになることもある
重複コンテンツや低品質コンテンツに対してrobots.txtを使いたくなるかもしれませんが、Googleはそうした行為を推奨していません。一般的に、重複コンテンツおよび低品質コンテンツはSEOに影響を与えるといわれていますが、ランキングを意図的に操作するのが目的ではない場合、Googleはそれらのコンテンツに対して特にペナルティは設けていません。robots.txtを設定したために、かえってアクセス数が減ってしまうケースもあるので注意しましょう。
robots.txtは、検索結果に載せたくないコンテンツがある場合には有効ですが、使用方法を誤ると逆SEOになってしまう可能性があります。クローラがサーバーに負荷を与えているわけではないのならば、無理に設定する必要はないのかもしれません。