ホームページ > ウェブフロントエンド > htmlチュートリアル > Python クローラーが html_html/css_WEB-ITnose の遅延読み込み部分 (layload_url) を処理する方法

Python クローラーが html_html/css_WEB-ITnose の遅延読み込み部分 (layload_url) を処理する方法

WBOY
リリース: 2016-06-24 11:47:22
オリジナル
2487 人が閲覧しました

リンク「http://s.1688.com/selloffer/industry_offer_search.htm?mixWholesale=true&industryFlag=food&categoryId=1032913&from=industrySearch&n=y&filt=y#_fb_top」のソースコードをダウンロードします。結果にはページの一部のみが含まれます。 ; このページには合計 60 個の製品がありますが、ソース コードから解析できるのは 20 個だけであり、ページめくりのリンクが見つかりません



上記のソース コードで実装された遅延読み込みである必要があります。新しい部分は、ページのプーリーを一番下までスクロールすると、このページを解析し、完全なページのソース コードを取得し、60 個の製品とページめくりリンクをすべて解析する方法を教えてください。


ディスカッションに返信 (解決策)

要素を監査し、データ ソース リンクを見つけて、そのリンクを直接使用してデータを取得します

うーん。 。 。今答えても遅すぎるかどうかはわかりません。これにより、Firefox を通じて遅延読み込み URL アドレスをキャプチャでき、パターンを見つけることができます。たまたま 1688 データをクロールしていて、遅延読み込みの問題に遭遇しました。その後、Firefox を介して URL をキャプチャしたところ、div sw-layload-url 内の URL を取り出し、最後に &callback=any 文字を追加するだけでよいことがわかりました。 .string を入力し、毎回 &startIndex= これを変更します (startIndex=20、startIndex=40)。これにより、json データが返されます
あなたが投稿した URL を試しましたが、なぜデータが返されないのかわかりません。棚から撤去されました。 。 。私が言ったことを試してみてください
、それを解決してより良い方法があれば、私と共有していただければ幸いです

ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート