検索エンジンスパイダーがWebサイトにアクセスすると、特別なルールセットを含むRobots.txtファイルが読み取られます。その結果、このRobots.txtファイルには、スキャンとインデックス作成が許可されているディレクトリ、スキャンとインデックス作成が許可されていないディレクトリなど、多数の制限が含まれています。同様のルールがファイル、ウェブページ、その他のアイテムに適用されます。公開検索結果に表示したくない。その結果、Robots.txtファイルは、検索エンジンに表示したくない管理パネルやその他の機密ディレクトリのアドレスを指定できるため、ハッカーからWebサイトを保護するために重要です。
では、このrobots.txtファイルにルールをどのように記述しますか?初心者にとっては簡単ではなく、robots.txtファイルの作成には時間がかかります。そのため、Useotools.comは無料のツールRobots.txt Creatorを提供しています。このツールを使用すると、数回クリックするだけで、robots.txtファイルを数秒で生成できます。その結果、ツールにはさまざまな設定があり、その概要を以下に示します。
デフォルト-すべてのロボットは次のとおりです。このオプションには、「許可」と「拒否」の2つの選択肢があります。すべての検索エンジンロボットがWebサイトにアクセスしてスキャンするようにしたいが、インターネットの信頼性が低い場合は、「許可」に設定します。厄介なボットがいくつかあるので、特定のロボットやスパイダーをブラックリストに登録する場合は、「拒否」に設定してください。クロール-遅延:これは重要なルールです。これにより、スパイダーはスキャンを特定の時間遅らせることができます。たとえば、大規模なサイトマップを持つ大規模なサイトがある場合、スパイダーが同時にサイトを探索できるようにすることでサーバーに過負荷をかけたくないでしょう。そのため、スパイダーがWebサイトをゆっくりとクロールし、サーバーに過負荷をかけないように、クロール遅延を設定する必要があります。サイトマップ:サイトマップはもう1つの重要なルールです。 Webサイトが大きい場合は、サイトマップを保持して、検索エンジンのスパイダーが何を探索するかを認識できるようにする必要があります。これは、新規訪問者向けの都市地図と非常によく似ています。 Webサイトにサイトマップがある場合は、ここに入力できます。検索ロボット:これは、受け入れるか拒否することができる検索エンジンロボット/スパイダーのリストです。制限付きディレクトリ:このセクションを使用して、検索エンジンがクロールして内部を調べないようにする制限付きディレクトリ名とパスを指定できます。