masyarakat Belajar Perpustakaan Alatan Masa lapang

Melayu

Rumah > pembangunan bahagian belakang > Tutorial Python > Python如何实现爬取需要登录的网站代码实例

Python如何实现爬取需要登录的网站代码实例

黄舟

Lepaskan： 2017-08-20 10:26:40

asal

3498 orang telah melayarinya

这篇文章主要介绍了Python实现爬取需要登录的网站,结合完整实例形式分析了Python登陆网站及数据抓取相关操作技巧,需要的朋友可以参考下

本文实例讲述了Python爬取需要登录的网站实现方法。分享给大家供大家参考，具体如下：

import requests
from lxml import html
# 创建 session 对象。这个对象会保存所有的登录会话请求。
session_requests = requests.session()
# 提取在登录时所使用的 csrf 标记
login_url = "https://bitbucket.org/account/signin/?next=/"
result = session_requests.get(login_url)
tree = html.fromstring(result.text)
authenticity_token = list(set(tree.xpath("//input[@name=&#39;csrfmiddlewaretoken&#39;]/@value")))[0]
payload = {
  "username": "<你的用户名>",
  "password": "<你的密码>",
  "csrfmiddlewaretoken": authenticity_token # 在源代码中，有一个名为 “csrfmiddlewaretoken” 的隐藏输入标签。
}
# 执行登录
result = session_requests.post(
  login_url,
  data = payload,
  headers = dict(referer=login_url)
)
# 已经登录成功了，然后从 bitbucket dashboard 页面上爬取内容。
url = &#39;https://bitbucket.org/dashboard/overview&#39;
result = session_requests.get(
  url,
  headers = dict(referer = url)
)
# 测试爬取的内容
tree = html.fromstring(result.content)
bucket_elems = tree.findall(".//span[@class=&#39;repo-name&#39;]/")
bucket_names = [bucket.text_content.replace("n", "").strip() for bucket in bucket_elems]
print(bucket_names)

Salin selepas log masuk

Atas ialah kandungan terperinci Python如何实现爬取需要登录的网站代码实例. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan：

python 登录 perlukan

sumber：php.cn

Artikel sebelumnya：Python中关于str与repr的使用详解 Artikel seterusnya：Python使用四种方法实现获取当前页面内所有链接的对比分析

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel terbaru oleh pengarang

从零开始打造自己的PHP框架的视频资料

2023-03-15 16:54:01
PHPMailer如何利用QQ邮箱完成邮件发送功能的实例分析

2023-03-15 12:26:02
php中关于IMAP如何收取邮件的方法介绍

2023-03-14 18:58:01
php如何快速实现数组去重的实例

2023-03-14 11:30:01
html中关于<a>标签的全部属性的使用总结

1970-01-01 08:00:00
php基础知识总结（新手入门必备）

2023-03-16 15:20:01
JavaScript中typeof的使用方法介绍

1970-01-01 08:00:00
JavaScript中confirm()方法的使用介绍

1970-01-01 08:00:00
HTML5 Placeholder属性的详情介绍

1970-01-01 08:00:00
ReactJS中表单的单选多选与反选的实现方法

1970-01-01 08:00:00

Isu terkini

Python/MySQL tidak dapat mengekalkan data integer dengan betul Tiada kod diperlukan di sini. Saya mahu menyimpan nombor yang sangat panjang kerana saya s...

daripada 2024-04-04 19:09:44

0

1

367

Menggunakan selenium ingin mengklik dan menentukan URL dalam kelas Saya perlukan petua lain hari ini. Saya cuba membina kod Python/Selenium dan ideanya ialah...

daripada 2024-04-04 14:14:44

0

1

3492

Selenium + Python - periksa imej melalui execute_script Saya perlu mengesahkan bahawa imej dipaparkan pada halaman menggunakan selenium dalam pyth...

daripada 2024-04-03 09:32:15

0

1

375

Bagaimana untuk mengekalkan baris X pertama dan memadamkan baris jadual Saya mempunyai jadual besar dengan berjuta-juta rekod dalam MySQLincident_archive, saya ma...

daripada 2024-04-01 18:32:54

0

1

347

Bagaimana untuk mengikis teks Cuaca Google tertentu menggunakan BeautifulSoup? Bagaimana untuk mencari teks kursus "New York City, USA" dalam Python menggunaka...

daripada 2024-04-01 14:06:14

0

1

308

Topik-topik yang berkaitan

Lagi>

Cadangan popular

Tutorial Popular

Lagi>

Tutorial berkaitan

Cadangan popular

Kursus terkini

Muat turun terkini

Lagi>

kesan web

Kod sumber laman web

Bahan laman web

Templat hujung hadapan