robots.txtとは、検索エンジン(クローラー)に特定の指示をすることができるテキストファイルのこと。サイト内の「読み取ってほしいページ」と「読み取らないでほしいページ」を指示することができます。
robots.txtにできること
このrobots.txtによってできることは2つ。
①指定したディレクトリ・URLにクローラーが行かないようにする
②クローラーをXMLサイトマップに誘導して優先度の高いところに行ってもらう
上記の2つを行うことによって無駄なクロールを無くし、クローラーが効率よくサイトを見て、質のいい情報を多く収集してもらうようにします。
>>XMLサイトマップとは
robots.txtによってクローラー最適化する意味
クロール不要な(ユーザーにとって価値の低い)コンテンツをrobots.txtで制御することで、クロールの最適化が見込めます。
検索ロボット、サーチボットとも呼ばれるインターネット上の様々なWeb ページの情報を集めるプログラムのこと。
検索エンジンに深くかかわるため、クローラーが巡回しやすいWebサイトをつくる
ことはSEO対策の基本と言われています。
クロールの最適化とは、サイト内の重要な(ユーザーにとって価値のある)ページにたくさんクローラーを訪問させることです。
クローラーは何回かに分けてサイトを訪問します。
そしてそのたびにrobots.txtで誘導し、ユーザーにとって価値のあるコンテンツにたくさん訪問させ、評価をもらい、検索上位になるようSEO改善を図ります。
nofollowとの違い
robots.txtと似たようなものでnofollowというものがあります。
nofollowの場合は、ただ訪問してほしくないページに行かせないようにするだけです。
▲nofollowの場合
対してrobots.txtの場合はクローラーが訪問するページを制限すると同時に、XMLサイトマップに誘導することができます。
▲robots.txtの場合
つまり、robots.txtでクローラーを誘導した場合は、nofollowと違いクロールするスタート地点も指示することができるのです。
クローラーが来てrobots.txtが質の高いページに誘導
↓
クローラーが来てrobots.txtが質の高いページに誘導
↓
以下ループ
▲どのページからでもサイトマップに誘導される
なのでrobots.txtの方がクローラーを優先順位の高いページに誘導することに関してはnofollowより適任である、ということです。
「このページは見ないで」というrobots.txtの指示は無視されることもあるようで、その対策としてnofollowもrobots.txtと併用して使ったほうが確実である、と言われています。
▲なぜか無視されるrobots.txt
よく聞くクローラーの上限値とは?対策は必要?
クローラーにはクロールできる上限値「クロールバジェット」と呼ばれるものがあります。
robots.txtのようなクローラーに指示を出すSEOの認識として「質の高いページを優先的にクローラーに見せることで、クローラーの情報収集に漏れがないようにする」、というイメージがあるかと思います。
しかし、多くの場合それは杞憂です。
そのことについてGoogleのジョン・ミューラー氏がこうコメントしています。
引用元:https://webtan.impress.co.jp/e/2016/08/19/23592
robots.txtのおさらい
・robots.txtはクローラーを誘導するテキストファイル
・見てほしいページをたくさんクロールさせてSEO対策
・robots.txtは無視されることもあるからnofollowも併用するといい
関連用語
その他参考になる記事