Python3 クローラーが Cookie をもたらす-Python チュートリアル-php.cn

Python3 クローラーが Cookie をもたらす

Guanhui

リリース： 2020-07-28 18:34:11

オリジナル

2981 人が閲覧しました

Python3 クローラーが Cookie をもたらす

クッキーの本来の意味は英語で「おやつ」で、クライアントがWebサーバーにアクセスした際に、サーバーがクライアントのハードディスクに保存する情報のことだそうです。サーバーからクライアントに送信される「スナック」。サーバーは Cookie に基づいて顧客のステータスを追跡できるため、顧客を区別する必要がある場合 (電子商取引など) に特に役立ちます。

クライアントが初めてサーバーへのアクセスを要求すると、サーバーはまずクライアントの関連情報を含む Cookie をクライアント上に保存します。今後クライアントがサーバーへのアクセスを要求するたびに、Cookie は保存されます。サーバーは、HTTP リクエスト内の Cookie を解析することで、顧客に関する関連情報を取得できます。

Cookie を Python3 クローラーに取り込む方法を見てみましょう:

1. Cookie をヘッダーに直接書き込みます

# coding:utf-8
import requests
from bs4 import BeautifulSoup
cookie = &#39;&#39;&#39;cisession=19dfd70a27ec0eecf1fe3fc2e48b7f91c7c83c60;CNZZDATA1000201968=181584
6425-1478580135-https%253A%252F%252Fwww.baidu.com%252F%7C1483922031;Hm_lvt_f805f7762a9a2
37a0deac37015e9f6d9=1482722012,1483926313;Hm_lpvt_f805f7762a9a237a0deac37015e9f6d9=14839
26368&#39;&#39;&#39;
header = {
&#39;User-Agent&#39;: &#39;Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Geck
o) Chrome/53.0.2785.143 Safari/537.36&#39;,
&#39;Connection&#39;: &#39;keep-alive&#39;,
&#39;accept&#39;: &#39;text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8&#39;,
&#39;Cookie&#39;: cookie}
url = &#39;https://www.jb51.net/article/191947.htm&#39;
wbdata = requests.get(url,headers=header).text
soup = BeautifulSoup(wbdata,&#39;lxml&#39;)
print(soup)

ログイン後にコピー

2. リクエストを使用します Cookie を挿入します

# coding:utf-8
import requests
from bs4 import BeautifulSoup
cookie = {
"cisession":"19dfd70a27ec0eecf1fe3fc2e48b7f91c7c83c60",
"CNZZDATA100020196":"1815846425-1478580135-https%253A%252F%252Fwww.baidu.com%252F%7C1483
922031",
"Hm_lvt_f805f7762a9a237a0deac37015e9f6d9":"1482722012,1483926313",
"Hm_lpvt_f805f7762a9a237a0deac37015e9f6d9":"1483926368"
}
url = &#39;https://www.jb51.net/article/191947.htm&#39;
wbdata = requests.get(url,cookies=cookie).text
soup = BeautifulSoup(wbdata,&#39;lxml&#39;)
print(soup)

ログイン後にコピー

拡張子の例:

Cookie を使用してハルビン工業大学 ACM サイトにログインします

サイトのログインアドレスを取得します

http:// acm.hit.edu.cn/hoj/system/login

送信する投稿データを表示
ユーザーとパスワード

Code:

#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""
__author__ = &#39;pi&#39;
__email__ = &#39;pipisorry@126.com&#39;

"""
import urllib.request, urllib.parse, urllib.error
import http.cookiejar

LOGIN_URL = &#39;http://acm.hit.edu.cn/hoj/system/login&#39;
values = {&#39;user&#39;: &#39;******&#39;, &#39;password&#39;: &#39;******&#39;} # , &#39;submit&#39; : &#39;Login&#39;
postdata = urllib.parse.urlencode(values).encode()
user_agent = r&#39;Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36&#39;
headers = {&#39;User-Agent&#39;: user_agent, &#39;Connection&#39;: &#39;keep-alive&#39;}

cookie_filename = &#39;cookie.txt&#39;
cookie = http.cookiejar.MozillaCookieJar(cookie_filename)
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)

request = urllib.request.Request(LOGIN_URL, postdata, headers)
try:
  response = opener.open(request)
  page = response.read().decode()
  # print(page)
except urllib.error.URLError as e:
  print(e.code, &#39;:&#39;, e.reason)

cookie.save(ignore_discard=True, ignore_expires=True) # 保存cookie到cookie.txt中
print(cookie)
for item in cookie:
  print(&#39;Name = &#39; + item.name)
  print(&#39;Value = &#39; + item.value)

get_url = &#39;http://acm.hit.edu.cn/hoj/problem/solution/?problem=1&#39; # 利用cookie请求訪问还有一个网址
get_request = urllib.request.Request(get_url, headers=headers)
get_response = opener.open(get_request)
print(get_response.read().decode())
# print(&#39;You have not solved this problem&#39; in get_response.read().decode())

ログイン後にコピー

推奨チュートリアル: 「 Python チュートリアル >>

以上がPython3 クローラーが Cookie をもたらすの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。