python - 禁止自己的网站被爬虫爬去?
大家讲道理
大家讲道理 2017-04-17 17:33:35
0
13
1063

禁止自己的网站被爬虫爬去?有什么方法啊

大家讲道理
大家讲道理

光阴似箭催人老,日月如移越少年。

全員に返信(13)
迷茫

次の内容を含む robots.txt ファイルを追加します:

リーリー
いいねを押す +0
刘奇

robots.txt を追加して、クローラーに Web サイトをクロールしないよう指示します。ただし、これは、両当事者が遵守する必要がある単なる合意です。

いいねを押す +0
巴扎黑

あなたが話しているクローラーが、Baidu クローラーを指すのか、それとも私たちが独自に作成したクローラーを指すのかはわかりません。

Baidu クローラーは上記の方法に従うだけで、すべてのクラスや ID を動的に生成するなど、他の人のクローラーを防ぐ方法はたくさんあります。クローラーは通常、HTML を解析して、クラスまたは ID を通じて必要なものを取得するためです。

いいねを押す +0
大家讲道理

爬虫類の種類にもよります
紳士タイプ?ミニチュア?
このクローラーが robots.txt の合意を遵守できるのであれば、問題ありません
しかし、これは単なる紳士協定です
悪者に遭遇しても、問題ありません

いいねを押す +0
迷茫

1) JS の gzip 圧縮を試すことができます。多くのクローラーは gzip 圧縮された JS をクロールしません。
2) 主要なリソースへの悪意のあるアクセスである場合は、ログを使用して分析します。相手は固定IPですので、相手のIPを禁止してみることができます

いいねを押す +0
黄舟

正直に言うと、絶対にそれを行うのは不可能です

いいねを押す +0
Peter_Zhu

まず、Web サイトが公開されている場合、内部ネットワークに変更しない限り、クローラーに対して公開されることになります。昨今の機密情報サイトはただ這い回っているだけで、基本的にユーザーエクスペリエンスは向上していません。

いいねを押す +0
迷茫

ふん、クラスと ID をめちゃくちゃにして、通常のルールと一致しなくすることもできます

いいねを押す +0
阿神

Web ページのすべてのコンテンツを js を使用して動的に生成できるかどうかはわかりません

いいねを押す +0
巴扎黑

まず第一に、上記のような内部ネットワークでない限り、クローラーのクロールを 100% 防ぐことは困難です。

ただし、ローテク クローラーによる Web サイトの巡回を防ぐために、いくつかの対策を講じることはできます。

具体的な対策については、Zhihu にアクセスしてこの記事を読んでください

お役に立てば幸いです

いいねを押す +0
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート
私たちについて 免責事項 Sitemap
PHP中国語ウェブサイト:福祉オンライン PHP トレーニング,PHP 学習者の迅速な成長を支援します!