私は、ドメイン名 http://www.XXX.com/ の Web サイトと、ルート ディレクトリにindex.php ファイルを持っています。この場合、アクセス アドレスは http://www.XXX.com/index.php になります
開いている限り、興味のある人はいつでも見つけることができます
クローラーには通常 2 種類ありますリンクを取得するには 2 つの方法がありますか? フォローと推測
前者は言うまでもありません
後者は、法的な URL 文字の原則に基づいており、通常、Web ページを取得する必要はありません。ヘッダーが存在するかどうかを検出するだけで十分です。その後、 follow を使用してサブディレクトリ内のサイトを取得します
robots.txt
User-agent: *
Disallow: /tner/
検索エンジンへのアクセスを禁止します。
ユーザーが http://www.XXX.com/tner と入力したときに、tner の下にあるすべてのファイルのリストが印刷されないように、tner の下に空のindex.html を作成します。
robots.txt
ユーザーエージェント: *
禁止: /tner/
検索エンジンのアクセスを無効にします。
ユーザーが http://www.XXX.com/tner と入力したときに、tner の下にあるすべてのファイルのリストが印刷されないように、tner の下に空のindex.html を作成します。
すごいですね! 検索エンジンへのアクセスを禁止する方法について、たくさんの人に尋ねたり、投稿したりしましたが、詳しく教えていただけますか? /tner ディレクトリにありますか? それとも別の場所にありますか? .html ファイル?
できることは次のとおりです: 開くか開かないか
開かない場合は、通常、サブディレクトリ全体に対するアクセス許可が制限されます
クローラーがリンクを取得する方法は一般に 2 つあります??フォローと計算
前者は言うまでもありません
後者は URL の正当な文字の原則に基づいており、検出は一般的に一定の範囲内で行われます。 、Web ページを取得する必要はありません。ヘッダーが存在するかどうかを検出するだけで十分です。その後、フォローを使用してサブディレクトリを取得します。
下のサイトが開かないのはなぜですか?
robots.txt
ユーザーエージェント: *
検索エンジンへのアクセスを禁止します。
ユーザーが http://www.XXX.com/tner と入力したときに、tner の下にあるすべてのファイルのリストが印刷されないように、tner の下に空のindex.html を作成します。
検索したところ、root ディレクトリ (http://www.XXX.com/) に robots.txt ファイルを作成する必要があることがわかりました。しかし、他の人がこのファイルをダウンロードするのが怖いのです。ファイル、このサブディレクトリの秘密が漏洩したのではありませんか?
無関係な人に私のこのサブディレクトリを見つけてほしくありません (ただし、彼はこのサブディレクトリが存在すると推測しているかもしれません)。また、検索エンジンにも検索されたくないです。サブディレクトリの内容が含まれています。
robots.txt をルート ディレクトリに置きます。 /var/www/html/robots.txt
他の人は http://www.yourdomain.com/robots.txt を開いて設定を確認できます 禁止: /tner/
私もこの問題に悩んでいて、上の階で良い方法を見つけました