コミュニティ学ぶツールライブラリレジャー

日本語

ホームページ > バックエンド開発 > Python チュートリアル > Python がログインを必要とする Web サイトのクロールコード例を実装する方法

Python がログインを必要とする Web サイトのクロールコード例を実装する方法

黄舟

リリース： 2017-08-20 10:26:40

オリジナル

3504 人が閲覧しました

この記事では、ログインが必要な Web サイトのクローリングを実装するための Python を主に紹介し、Python ログイン Web サイトとデータキャプチャ関連の操作スキルを完全な例の形で分析します。この記事の例は、 PythonでWebサイトをクロールするにはログインが必要です。参考のために皆さんと共有してください。詳細は次のとおりです:

import requests
from lxml import html
# 创建 session 对象。这个对象会保存所有的登录会话请求。
session_requests = requests.session()
# 提取在登录时所使用的 csrf 标记
login_url = "https://bitbucket.org/account/signin/?next=/"
result = session_requests.get(login_url)
tree = html.fromstring(result.text)
authenticity_token = list(set(tree.xpath("//input[@name=&#39;csrfmiddlewaretoken&#39;]/@value")))[0]
payload = {
  "username": "<你的用户名>",
  "password": "<你的密码>",
  "csrfmiddlewaretoken": authenticity_token # 在源代码中，有一个名为 “csrfmiddlewaretoken” 的隐藏输入标签。
}
# 执行登录
result = session_requests.post(
  login_url,
  data = payload,
  headers = dict(referer=login_url)
)
# 已经登录成功了，然后从 bitbucket dashboard 页面上爬取内容。
url = &#39;https://bitbucket.org/dashboard/overview&#39;
result = session_requests.get(
  url,
  headers = dict(referer = url)
)
# 测试爬取的内容
tree = html.fromstring(result.content)
bucket_elems = tree.findall(".//span[@class=&#39;repo-name&#39;]/")
bucket_names = [bucket.text_content.replace("n", "").strip() for bucket in bucket_elems]
print(bucket_names)

ログイン後にコピー

以上がPython がログインを必要とする Web サイトのクロールコード例を実装する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル：

python ログイン必要

ソース：php.cn

前の記事：Pythonでのstrとreprの使い方を詳しく解説次の記事：Python は 4 つの方法を使用して、現在のページ内のすべてのリンクの比較分析を実行します。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

著者別の最新記事

独自の PHP フレームワークをゼロから構築するためのビデオ資料

2023-03-15 16:54:01
PHPMailer が QQ メールボックスを使用して電子メール送信機能を完了する方法の分析例

2023-03-15 12:26:02
PHPでIMAPでメールを受信する方法の紹介

2023-03-14 18:58:01
PHP で配列の重複排除を迅速に実装する方法の例

2023-03-14 11:30:01
HTML でのタグのすべての属性の使用の概要

1970-01-01 08:00:00
PHPの基礎知識まとめ（初心者が始めるのに必要）

2023-03-16 15:20:01
JavaScript での typeof の使用の概要

1970-01-01 08:00:00
JavaScript でのconfirm() メソッドの使用の概要

1970-01-01 08:00:00
HTML5 プレースホルダー属性の詳細な紹介

1970-01-01 08:00:00
ReactJS のフォームに単一選択、複数選択、逆選択を実装する方法

1970-01-01 08:00:00

最新の問題

Python/MySQL は整数データを正しく保持できませんここではコードは必要ありません。ゲームを作成していてスコアを保存する必要があるため、非常に長い数値を保存したいと考えています。ただし、テストしてスコアを 25000000000 に...

から 2024-04-04 19:09:44

0

1

367

Seleniumを使用してクラス内でURLをクリックして定義したい今日はもう一つヒントが必要です。私は Python/Selenium コードを構築しようとしていますが、そのアイデアは www.thewebsiteIwantoclickon をク...

から 2024-04-04 14:14:44

0

1

3492

Selenium + Python -execute_script を介して画像を検査します Python の Selenium を使用して画像がページに表示されることを確認する必要があります。たとえば、https://openweathermap.org/ ページの左上隅...

から 2024-04-03 09:32:15

0

1

375

最初の X 行を保持し、テーブルの行を削除する方法 MySQLincident_archive に数百万のレコードを含む大きなテーブルがあります。作成した列で行をソートし、最初の X 行を保持し、残りを削除したいのですが、最も効率的...

から 2024-04-01 18:32:54

0

1

347

BeautifulSoupを使用して特定のGoogle天気テキストをスクレイピングする方法は? BeautifulSoupを使用してPythonでコーステキスト「米国ニューヨーク市」を見つけるにはどうすればよいですか?練習のためにビデオをコピーしようとしましたが、うまくいきま...

から 2024-04-01 14:06:14

0

1

308

関連トピック

詳細>

人気のおすすめ

人気のチュートリアル

詳細>

関連するチュートリアル

人気のおすすめ

最新のコース

最新のダウンロード

詳細>

ウェブエフェクト

公式サイト

サイト素材

フロントエンドテンプレート