Robots.txt は、検索エンジンが Web サイトにアクセスしたときに最初に参照するファイルで、検索エンジンによる Web サイト コンテンツのクロール範囲を指定するために使用されるテキスト ファイルです。検索スパイダーがサイトを訪問すると、まずサイトのルート ディレクトリに robots.txt が存在するかどうかを確認し、存在する場合はファイル内の内容に基づいて訪問範囲を決定します。
ウェブサイト構築の過程で、検索エンジンによってクロールされたくないコンテンツや、検索エンジンに表示されたくないコンテンツがいくつか出てきます。インターネットだからどうすればいいの??私の xx コンテンツをクロールしないように検索エンジンに指示するにはどうすればよいですか?ここでロボットが役に立ちます。
Robots.txt は、Web サイトにアクセスしたときに検索エンジンが最初に調べるファイルです。 Robots.txt ファイルは、サーバー上のどのファイルを表示できるかをスパイダーに伝えます。
検索スパイダーがサイトを訪問すると、まずサイトのルート ディレクトリに robots.txt が存在するかどうかを確認し、存在する場合はその内容に基づいてアクセス範囲を決定します。ファイル; if ファイルが存在しない場合、すべての検索スパイダーは、パスワードで保護されていない Web サイト上のすべてのページにアクセスできます。
構文: 最も単純な robots.txt ファイルでは 2 つのルールが使用されます:
• ユーザー エージェント: 次のルールが適用されるロボット
• 禁止: Web ページが
ただし、いくつかの点に注意する必要があります:
1.robots.txt は Web サイトのルート ディレクトリ
に保存する必要があります。2. ファイル名は robots.txt とし、ファイル名はすべて小文字にする必要があります。
3.Robots.txt は、検索エンジンが Web サイトにアクセスする最初のページです
4.Robots.txt ではユーザー エージェントを指定する必要があります
robots.txt の誤解
誤解 1: Web サイト上のすべてのファイルはスパイダーによってクロールされる必要があるため、robots.txt ファイルを追加する必要はありません。とにかく、ファイルが存在しない場合、すべての検索スパイダーは、デフォルトでパスワードで保護されていない Web サイト上のすべてのページにアクセスできます。
ユーザーが存在しない URL にアクセスしようとすると、サーバーはログに 404 エラー (ファイルが見つかりません) を記録します。検索スパイダーが存在しない robots.txt ファイルを検索するたびに、サーバーはログに 404 エラーを記録するため、Web サイトに robots.txt を追加する必要があります。
誤解 2: robots.txt ファイル内のすべてのファイルが検索スパイダーによってクロールされるように設定すると、Web サイトの包含率が高まる可能性があります。
Web サイト内のプログラム スクリプト、スタイル シート、その他のファイルがスパイダーによってインクルードされたとしても、Web サイトのインクルード率は向上せず、サーバー リソースを浪費するだけです。したがって、検索スパイダーによるこれらのファイルのインデックス作成を許可しないように、robots.txt ファイルで設定する必要があります。
除外する必要がある特定のファイルについては、「Robots.txt の使用に関するヒント」の記事で詳しく説明されています。
誤解 3: 検索スパイダーは Web ページをクロールするときにサーバー リソースを無駄にします robots.txt ファイルに設定されているすべての検索スパイダーがすべての Web ページをクロールできるわけではありません。
この場合、Web サイト全体が検索エンジンによってインデックス付けされなくなります。
robots.txt 使用上のヒント
1. ユーザーが存在しない URL にアクセスしようとすると、サーバーは 404 エラー (ファイルが見つかりません) を記録します。 ) ログに記録されます)。検索スパイダーが存在しない robots.txt ファイルを検索するたびに、サーバーはログに 404 エラーを記録するため、サイトに robots.txt を追加する必要があります。
2. Web サイト管理者は、サーバーのパフォーマンスを確保するために、スパイダー プログラムをサーバー上の特定のディレクトリから遠ざける必要があります。例: ほとんどの Web サイト サーバーのプログラムは「cgi-bin」ディレクトリに保存されているため、すべてのプログラム ファイルがスパイダーによってインデックス付けされるのを防ぐために、robots.txt ファイルに「Disallow: /cgi-bin」を追加することをお勧めします。 . サーバーリソースを節約できます。一般的な Web サイトでスパイダーによってクロールされる必要のないファイルには、バックグラウンド管理ファイル、プログラム スクリプト、添付ファイル、データベース ファイル、エンコード ファイル、スタイル シート ファイル、テンプレート ファイル、ナビゲーション画像および背景画像などが含まれます。
以下は、VeryCMS の robots.txt ファイルです:
ユーザー エージェント: *
許可しない: /admin/ バックグラウンド管理ファイル
許可しない: /require/ プログラム ファイル
許可しない: /attachment/ Attachment
許可しない: /images/ Picture
許可しない: /data/ データベース ファイル
許可しない: / template/ テンプレート ファイル
# 許可しない: /css/ スタイル シート ファイル
# 許可しない: /lang/ エンコード ファイル
# 許可しない: /script/ スクリプト ファイル
3. Web サイトに動的 Web ページがあり、これらの動的 Web ページの静的コピーを作成して、検索スパイダーがクロールしやすくする場合。次に、動的な Web ページがスパイダーによってインデックス付けされるのを防ぎ、これらの Web ページが重複したコンテンツを含んでいると見なされないように、robots.txt ファイル内で設定を行う必要があります。
4. robots.txt ファイルには、サイトマップ ファイルへのリンクを直接含めることもできます。このように:
サイトマップ: http://www.***.com/sitemap.xml
現在これをサポートしている検索エンジン会社には、Google、Yahoo、Ask、MSN などがあります。中国の検索エンジン企業は明らかにこの輪に属していない。この利点は、ウェブマスターが独自のサイトマップ ファイルを送信するために各検索エンジンのウェブマスター ツールや同様のウェブマスター セクションに移動する必要がないことです。検索エンジン スパイダーは robots.txt ファイルをクロールして、その中のコンテンツを読み取ります。サイトマップ パスを検索し、リンクされた Web ページをクロールします。
5. robots.txt ファイルを適切に使用すると、アクセス時のエラーを回避できます。たとえば、検索者をショッピング カート ページに直接移動させることはできません。ショッピング カートを含める必要はないため、robots.txt ファイルに設定して、検索者がショッピング カート ページに直接アクセスできないようにすることができます
以上がrobots.txt とは何ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。