非常に多くの IP が /robots.txt にアクセスしました
Apache のログにはこのような記録がたくさんあり、すべてが /robots.txt にアクセスしており、10 分以上で数万行になります。サーバーの CPU は 100% になることがよくあります。
スパイダーは robots.txt を頻繁にクロールしません。 。 。専門家に
66.249.65.147 - - [17/Oct/2014:10:14:38 0100] "GET /robots.txt HTTP/1.1" 200 -
(-なぜなら私は空の robots.txt が Web サイトのルート ディレクトリに作成されました)
------解決策のアイデア------ - ------
おかしいですね、CPUが100%占有されていることが問題なのでしょうか?
robots.txt をブロックして確認してください。
------ソリューションのアイデア----------------------
robots.txt で必要なのはプログラミングのみですそれは注意してください、それを置く必要はありません、それは負担ですその欠点を分析してください、そしてコメントを歓迎しましょう:
1. フロントページのバックグラウンドアドレスを呼び出していない場合、スパイダーはそれをクロールしません。 . スパイダーは css や js などをクロールしようとはしません。
2. robots.txt をセットアップするとき、多くの初心者は非常に従順です。彼らはスパイダーの這いをブロックするために機密アドレスを設定します。実際、厳格である限り、スパイダーは這うことはできませんが、下心を持つ人々はロボットに目を向けます。 .txt まず管理入口アドレスを見つけました。
3. どのスパイダーがやって来ても、最初にクロールするのは robots.txt であり、これがリソースを消費します。
このファイルは直接送信されるべきではなく、robots.txt によって引き起こされるものではありません。 100% の確率で到達します