robots.txtの基本的な書き方

access_time

robots.txtの基本的な書き方

robots.txtはホームページをアップしたときに、検索ロボット(クローラー)にクロールしないでほしい(検索エンジンへのindex登録を避ける)URLを指定したり、サイトマップの場所を伝えるために書きます。

WordPress等を使用していない静的サイトであれば特にアクセスを制限する必要もないのでこんな感じで書きます。

User-agent: *
Sitemap: https://tilenote.com/sitemap.xml

Sitemap: 以降のURLはサイトマップのあるURLを相対値(/sitemap.xml)等ではなく、絶対値(https://~)で書きましょう。

WordPressを使用しているサイトはrobots.txtが生成されます。
デフォルトはこんな感じで表示されます。

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

コレに上記と同じようにサイトマップのURLを書き足す感じです。
この辺はプラグイン等で設定できるものもありますし、直接サーバーにアップする方法等がありますのでお好みで。

サーバーにアップする場合はindex.htmlやindex.phpのおいてある一番上の階層(ルートディレクトリ)に設置します。

ちなみにこのサイトはプラグインYoast SEOを使用しているので、プラグインのツールでこんな感じに書換えてあります。

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://tilenote.com/sitemap_index.xml

サイトマップのURLは(以下略)。
Yoast SEO はサイトマップを/sitemap.xmlでアクセスすると上記の/sitemap_index.xmlにリダイレクトされるため、こんな感じで書いてます。
この中にカテゴリーや投稿ページ、固定ページに分けてサイトマップを出力してくれるので、登録するアドレスを調整すれば良いと思います。

コードの解説

User-agent:

とりあえず冒頭に書いておく必須コード。制御するクローラーを指定します。
全てのクローラーを制御する場合は「*」特定のクローラーを指定する場合は「 Googlebot 」のようにクローラーの名前を書きます。基本的には「 * 」で問題ないと思います。

Disallow:

クロールを拒否するためのコード。
例えば、

User-agent: *
Disallow: /wp-admin/

と書いてあるので、https://tilenote.com/wp-admin/のディレクトリはクロールしないでくださいね!という意味になります。
書き方をまとめておくとこんな感じになります。

User-agent: *
Disallow: /  -> サイト全体のクロールを拒否
Disallow: /test/  -> 特定のディレクトリのクロールを拒否
Disallow: /test/test.html  -> 特定のディレクトリのファイルのクロールを拒否

Allow:

クロールを許可する為のコード。
先程のDisallow:で指定したクロールを拒否するディレクトリの中にここだけはクロールして良いという指定をする命令。Disallow:より優先される。

User-agent: *
Disallow: /test/  -> /test/ディレクトリのクロールを拒否する
Allow: /test/sample.html  -> けど、/test/sample.htmlはクロールしてね!

という感じになる。
正直あんまり使った記憶がない。
とりあえず知識として。

Sitemap:

サイトマップを指定するコード。
上にも記載しましたが、サイトマップのURLは絶対値で書きましょう。
複数ある場合は改行して書きます。

User-agent: *
Sitemap: https://tilenote.com/sitemap.xml
Sitemap: 【ココにサイトマップのURLを書く】

また、コレを書いたからSearch Consoleには登録しなくてもいいと言う訳ではなくちゃんとサイトマップは登録しましょう。

サーバー