社群學習工具庫休閒

繁体中文

首頁 > 後端開發 > Python教學 > Python如何實現爬取需要登入的網站程式碼實例

Python如何實現爬取需要登入的網站程式碼實例

黄舟

發布： 2017-08-20 10:26:40

原創

3498 人瀏覽過

這篇文章主要介紹了Python實現爬取需要登入的網站,結合完整實例形式分析了Python登陸網站及資料抓取相關操作技巧,需要的朋友可以參考下

本文實例講述了Python爬取需要登入的網站實作方法。分享給大家參考，具體如下：

import requests
from lxml import html
# 创建 session 对象。这个对象会保存所有的登录会话请求。
session_requests = requests.session()
# 提取在登录时所使用的 csrf 标记
login_url = "https://bitbucket.org/account/signin/?next=/"
result = session_requests.get(login_url)
tree = html.fromstring(result.text)
authenticity_token = list(set(tree.xpath("//input[@name=&#39;csrfmiddlewaretoken&#39;]/@value")))[0]
payload = {
  "username": "<你的用户名>",
  "password": "<你的密码>",
  "csrfmiddlewaretoken": authenticity_token # 在源代码中，有一个名为 “csrfmiddlewaretoken” 的隐藏输入标签。
}
# 执行登录
result = session_requests.post(
  login_url,
  data = payload,
  headers = dict(referer=login_url)
)
# 已经登录成功了，然后从 bitbucket dashboard 页面上爬取内容。
url = &#39;https://bitbucket.org/dashboard/overview&#39;
result = session_requests.get(
  url,
  headers = dict(referer = url)
)
# 测试爬取的内容
tree = html.fromstring(result.content)
bucket_elems = tree.findall(".//span[@class=&#39;repo-name&#39;]/")
bucket_names = [bucket.text_content.replace("n", "").strip() for bucket in bucket_elems]
print(bucket_names)

登入後複製

以上是Python如何實現爬取需要登入的網站程式碼實例的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

python 登入需要

來源：php.cn

上一篇：Python中關於str與repr的使用詳解下一篇：Python使用四種方法實現獲取當前頁面內所有連結的對比分析

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

從零開始打造自己的PHP框架的影片資料

2023-03-15 16:54:01
PHPMailer如何利用QQ信箱完成郵件傳送功能的實例分析

2023-03-15 12:26:02
php中關於IMAP如何收取電子郵件的方法介紹

2023-03-14 18:58:01
php如何快速實現數組去重的實例

2023-03-14 11:30:01
html中關於標籤的全部屬性的使用總結

1970-01-01 08:00:00
php基礎知識總結（新手入門必備）

2023-03-16 15:20:01
JavaScript中typeof的使用方法介紹

1970-01-01 08:00:00
JavaScript中confirm()方法的使用介紹

1970-01-01 08:00:00
HTML5 Placeholder屬性的詳情介紹

1970-01-01 08:00:00
ReactJS中表單的單選多選與反選的實作方法

1970-01-01 08:00:00

最新問題

Python/MySQL無法正確持久化整數數據在這裡不需要任何程式碼。我想要保存一個非常長的數字，因為我正在製作一個遊戲，需要保存分數。但是我測試了一下，將分數設定為25000000000，但在mysql中儲存為2147483...

來自於 2024-04-04 19:09:44

0

1

367

使用selenium想要點擊並在類別中定義URL 今天我需要另一個提示。我正在嘗試建立Python/Selenium程式碼，想法是點擊www.thewebsiteIwantoclickon下面是我正在處理的HTML範例。類別ent...

來自於 2024-04-04 14:14:44

0

1

3492

Selenium + Python - 透過execute_script檢查映像我需要使用python中的selenium驗證圖片是否顯示在頁面上。例如，讓我們檢查https://openweathermap.org/頁面左上角的標誌。我使用execute_s...

來自於 2024-04-03 09:32:15

0

1

375

保留前X行，刪除表格行的方法我在MySQLincident_archive中有一個包含數百萬筆記錄的大表，我想按created列對行進行排序，並保留前X行並刪除其餘行，最有效的方法是什麼。到目前為止，我用Py...

來自於 2024-04-01 18:32:54

0

1

347

如何使用 BeautifulSoup 抓取特定的Google天氣文字？如何使用BeautifulSoup在Python中找到課程文本“美國紐約市”？嘗試複製影片進行練習，但不再有效。嘗試在官方文件中找到一些內容，但沒有成功。或者我的get_html_...

來自於 2024-04-01 14:06:14

0

1

308

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1421807
php入門教程之一週學會PHP

4266386
JAVA 初級入門影片教學

2520345
小甲魚零基礎入門學習Python影片教學

506625
PHP 零基礎入門教學

861682

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板