robots.txt とは何ですか?-SEO-php.cn

robots.txt とは何ですか?

藏色散人

リリース： 2020-09-18 15:23:44

オリジナル

6544 人が閲覧しました

Robots.txt は、検索エンジンが Web サイトにアクセスしたときに最初に参照するファイルで、検索エンジンによる Web サイトコンテンツのクロール範囲を指定するために使用されるテキストファイルです。検索スパイダーがサイトを訪問すると、まずサイトのルートディレクトリに robots.txt が存在するかどうかを確認し、存在する場合はファイル内の内容に基づいて訪問範囲を決定します。

robots.txt とは何ですか?

ウェブサイト構築の過程で、検索エンジンによってクロールされたくないコンテンツや、検索エンジンに表示されたくないコンテンツがいくつか出てきます。インターネットだからどうすればいいの？？私の xx コンテンツをクロールしないように検索エンジンに指示するにはどうすればよいですか?ここでロボットが役に立ちます。

Robots.txt は、Web サイトにアクセスしたときに検索エンジンが最初に調べるファイルです。 Robots.txt ファイルは、サーバー上のどのファイルを表示できるかをスパイダーに伝えます。

検索スパイダーがサイトを訪問すると、まずサイトのルートディレクトリに robots.txt が存在するかどうかを確認し、存在する場合はその内容に基づいてアクセス範囲を決定します。ファイル; if ファイルが存在しない場合、すべての検索スパイダーは、パスワードで保護されていない Web サイト上のすべてのページにアクセスできます。

構文: 最も単純な robots.txt ファイルでは 2 つのルールが使用されます:

• ユーザーエージェント: 次のルールが適用されるロボット

• 禁止: Web ページが

ただし、いくつかの点に注意する必要があります:

1.robots.txt は Web サイトのルートディレクトリ

に保存する必要があります。

2. ファイル名は robots.txt とし、ファイル名はすべて小文字にする必要があります。

3.Robots.txt は、検索エンジンが Web サイトにアクセスする最初のページです

4.Robots.txt ではユーザーエージェントを指定する必要があります

robots.txt の誤解

誤解 1: Web サイト上のすべてのファイルはスパイダーによってクロールされる必要があるため、robots.txt ファイルを追加する必要はありません。とにかく、ファイルが存在しない場合、すべての検索スパイダーは、デフォルトでパスワードで保護されていない Web サイト上のすべてのページにアクセスできます。

ユーザーが存在しない URL にアクセスしようとすると、サーバーはログに 404 エラー (ファイルが見つかりません) を記録します。検索スパイダーが存在しない robots.txt ファイルを検索するたびに、サーバーはログに 404 エラーを記録するため、Web サイトに robots.txt を追加する必要があります。

誤解 2: robots.txt ファイル内のすべてのファイルが検索スパイダーによってクロールされるように設定すると、Web サイトの包含率が高まる可能性があります。

Web サイト内のプログラムスクリプト、スタイルシート、その他のファイルがスパイダーによってインクルードされたとしても、Web サイトのインクルード率は向上せず、サーバーリソースを浪費するだけです。したがって、検索スパイダーによるこれらのファイルのインデックス作成を許可しないように、robots.txt ファイルで設定する必要があります。

除外する必要がある特定のファイルについては、「Robots.txt の使用に関するヒント」の記事で詳しく説明されています。

誤解 3: 検索スパイダーは Web ページをクロールするときにサーバーリソースを無駄にします robots.txt ファイルに設定されているすべての検索スパイダーがすべての Web ページをクロールできるわけではありません。

この場合、Web サイト全体が検索エンジンによってインデックス付けされなくなります。

robots.txt 使用上のヒント

1. ユーザーが存在しない URL にアクセスしようとすると、サーバーは 404 エラー (ファイルが見つかりません) を記録します。 ) ログに記録されます)。検索スパイダーが存在しない robots.txt ファイルを検索するたびに、サーバーはログに 404 エラーを記録するため、サイトに robots.txt を追加する必要があります。

2. Web サイト管理者は、サーバーのパフォーマンスを確保するために、スパイダープログラムをサーバー上の特定のディレクトリから遠ざける必要があります。例: ほとんどの Web サイトサーバーのプログラムは「cgi-bin」ディレクトリに保存されているため、すべてのプログラムファイルがスパイダーによってインデックス付けされるのを防ぐために、robots.txt ファイルに「Disallow: /cgi-bin」を追加することをお勧めします。 . サーバーリソースを節約できます。一般的な Web サイトでスパイダーによってクロールされる必要のないファイルには、バックグラウンド管理ファイル、プログラムスクリプト、添付ファイル、データベースファイル、エンコードファイル、スタイルシートファイル、テンプレートファイル、ナビゲーション画像および背景画像などが含まれます。

以下は、VeryCMS の robots.txt ファイルです:

ユーザーエージェント: *

許可しない: /admin/ バックグラウンド管理ファイル

許可しない: /require/ プログラムファイル

許可しない: /attachment/ Attachment

許可しない: /images/ Picture

許可しない: /data/ データベースファイル

許可しない: / template/ テンプレートファイル

# 許可しない: /css/ スタイルシートファイル

# 許可しない: /lang/ エンコードファイル

# 許可しない: /script/ スクリプトファイル

3. Web サイトに動的 Web ページがあり、これらの動的 Web ページの静的コピーを作成して、検索スパイダーがクロールしやすくする場合。次に、動的な Web ページがスパイダーによってインデックス付けされるのを防ぎ、これらの Web ページが重複したコンテンツを含んでいると見なされないように、robots.txt ファイル内で設定を行う必要があります。

4. robots.txt ファイルには、サイトマップファイルへのリンクを直接含めることもできます。このように:

サイトマップ: http://www.***.com/sitemap.xml

現在これをサポートしている検索エンジン会社には、Google、Yahoo、Ask、MSN などがあります。中国の検索エンジン企業は明らかにこの輪に属していない。この利点は、ウェブマスターが独自のサイトマップファイルを送信するために各検索エンジンのウェブマスターツールや同様のウェブマスターセクションに移動する必要がないことです。検索エンジンスパイダーは robots.txt ファイルをクロールして、その中のコンテンツを読み取ります。サイトマップパスを検索し、リンクされた Web ページをクロールします。

5. robots.txt ファイルを適切に使用すると、アクセス時のエラーを回避できます。たとえば、検索者をショッピングカートページに直接移動させることはできません。ショッピングカートを含める必要はないため、robots.txt ファイルに設定して、検索者がショッピングカートページに直接アクセスできないようにすることができます

以上がrobots.txt とは何ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。