淘宝模拟登陆抓取失败
# __author__ = ''
# -*- coding: utf-8 -*-
import requests
import re
s = requests.session()
login_data = {'email': 'xxx', 'password': 'xxx', }
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36',
'Host':'log.mmstat.com',
'Referer':'https://www.taobao.com/'
}
# post 数据实现登录
s.post('https://login.taobao.com/member/login.jhtml?redirectURL=https%3A%2F%2Fwww.taobao.com%2F', login_data, headers=headers)
# 验证是否登陆成功,抓取'淘宝'首页看看内容
r = s.get('https://www.taobao.com')
print r.text
还是小白
用户名和密码省去嘞
得到的还是未登录时的代码,不知道自己少了什么,有成功的大神能告知一下咩
Berhati-hati untuk melampirkan kuki semasa menghantar permintaan~
Adalah disyorkan untuk memberi perhatian kepada perkara berikut semasa mensimulasikan log masuk:
Lihat permintaan yang dihantar semasa log masuk biasa dalam penyemak imbas:
Apakah medan yang diserahkan?
Kuki apa yang anda bawa?
Adakah alamat yang diminta mempunyai parameter?
Berikut ialah perangkak yang saya gunakan untuk merangkak maklumat peminjaman Perpustakaan Universiti Yunnan. Kata laluan lalai untuk sistem log masuk Perpustakaan Yunda ialah lapan digit terakhir nombor pelajar.
Apa pun, saya akan tunjukkan helahnya~Kemudian ia bukan sahaja nama pengguna dan kata laluan semasa menghantar borang, tetapi juga medan
lt
tersembunyi. Medan ini ditulis dalam input tersembunyi apabila borang log masuk dijana, jadi ia mesti diekstrak dalam pos Terdapat juga medan jsessionid dalam alamat borang, yang anda juga perlu ekstrak dan tambah dari halaman log masuk;Ringkasnya, saya harap idea penyelesaian saya dapat memberi anda sedikit panduan.
Apabila pelayan mengesan tiada keabnormalan antara maklumat log masuk simulasi anda dan maklumat yang biasa diserahkan, log masuk berjaya~
Tiru tindakan log masuk biasa
, terus memikirkannya dalam alat penyahpepijat rangkaian penyemak imbas. Dilampirkan di bawah ialah perangkak log masuk simulasi yang saya tulis suatu masa dahulu
Mengapa ia alamat Taobao? Hanya gunakan kuki yang anda gunakan untuk log masuk. Zhihu nampaknya mempunyai kod pengesahan juga