コミュニティ学ぶツールライブラリレジャー

日本語

ホームページ > バックエンド開発 > Python チュートリアル > Pythonはscrapyを使用してjsの例を解析します

Pythonはscrapyを使用してjsの例を解析します

WBOY

リリース： 2016-06-16 08:45:26

オリジナル

1147 人が閲覧しました

复制代码代码如下:

from Selenium import Selenium

class MySpider(CrawlSpider):
name = 'cnbeta'
allowed_domains = ['cnbeta.com']
start_urls = ['http://www.jb51.net']

rules = (
# 'category.php' に一致するリンクを抽出します (ただし、'subsection.php' には一致しません)
# それらのリンクをたどります (コールバックがないため、デフォルトでは follow=True を意味します)。
Rule(SgmlLinkExtractor(allow=('/articles/.*.htm', )),
callback='parse_page', follow=True),

# 「item.php」に一致するリンクを抽出し、スパイダーのメソッド parse_item
)

で解析します

def __init__(self):
CrawlSpider.__init__(self)
self.verificationErrors = []
self.selenium = selenium("localhost", 4444, "*firefox", "http: //www.jb51.net")
self.selenium.start()

def __del__(self):
self.selenium.stop()
print self.verificationErrors
CrawlSpider.__del__(self)

def parse_page(self, response):
self.log('こんにちは、これはアイテムページです! %s' % response.url)
sel = Selector(response)
from webproxy.items import WebproxyItem

sel = self.selenium
sel.open(response.url)
sel.wait_for_page_to_load("30000")
インポート時間

time.sleep(2.5)

関連ラベル：

解析js

ソース：php.cn

前の記事：Paramiko モジュールのインストールと使用 (リモートログインサーバー) 次の記事：Python で一括変換ファイルのエンコードを実装 (一括変換エンコードの例)

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

著者別の最新記事

NullPointerException とは何ですか?どのように修正すればよいですか?

2024-10-22 09:46:29
初心者からプログラマーへ: 旅は C の基礎から始まります

2024-10-13 13:53:41
PHP による Web 開発のロックを解除する: 初心者ガイド

2024-10-12 12:15:51
C の謎を解く: 新人プログラマーのための明確でシンプルな道

2024-10-11 22:47:31
コーディングの可能性を解き放つ: まったくの初心者のための C プログラミング

2024-10-11 19:36:51
内なるプログラマーを解き放つ: まったくの初心者のための C

2024-10-11 15:50:41
C で生活を自動化する: 初心者向けのスクリプトとツール

2024-10-11 15:07:41
PHP を簡単に: Web 開発の最初のステップ

2024-10-11 14:21:21
Python で何でも構築: 創造性を解き放つための初心者ガイド

2024-10-11 12:59:11
コーディングの鍵: 初心者のための Python の力を解き放つ

2024-10-11 12:17:31

最新の問題

PHP: 複数の重複一致の複数のインスタンスを照合して置換するための正規表現ユーザーがコンテンツに ((MagicalSword)) のようなものを追加できるゲームコミュニティ/データベース用のショートコードシステムを作成しようとしています。これは、イ...

から 2024-04-04 15:41:01

0

1

439

ルーティングパスがreact.jsコンポーネントをレンダリングしない Framer-motionを使用していくつかのアニメーションパスルートを作成しようとしていますが、コンポーネントが表示されず、どうやらHome、Contact、aboutのルートが...

から 2024-04-04 10:37:17

0

1

429

SimpleXML が GML データをロードしない PHP を使用して SimpleXML に解析したい次のサンプル XML データがあります: <?xmlversion="1.0"encoding=&qu...

から 2024-04-04 10:04:41

0

1

358

Ajax を使用したコンテンツの生成 - ID までスクロールできない ajax経由で取得したデータに基づいてページコンテンツを生成します。私が抱えている問題は、特定の ID までスクロールしたいときに、スクロールが起こらないか、間違った場所にスクロー...

から 2024-04-04 09:29:39

0

1

397

質問は同じですが、タイトルは次のように書き換えられています: Javascript のランダム関数が有効な応答を生成できません JSとHTMLを使用して簡単な乱数生成ゲームを作成しています。このゲームでは乱数の最小値と最大値を設定できます。しかし、変数を設定して結果を記録すると、ありえない数値が表示されます...

から 2024-04-03 22:03:14

0

1

275

関連トピック

詳細>

人気のおすすめ

人気のチュートリアル

詳細>

関連するチュートリアル

人気のおすすめ

最新のコース

最新のダウンロード

詳細>

ウェブエフェクト

公式サイト

サイト素材

フロントエンドテンプレート