圖文詳解Python爬蟲破解JS加密的Cookie步驟-Python教學-PHP中文網

前言

　　在GitHub上維護了一個代理池的項目，代理來源是抓取一些免費的代理發佈網站。上午有個小哥告訴我說有個代理抓取介面不能用了，回傳狀態521。抱著幫人解決問題的心態去跑了一遍程式碼。發現果實真是這樣。

　　透過Fiddler抓包比較，基本上可以確定是JavaScript產生加密Cookie導致原來的請求回傳521。

發現問題

　　開啟Fiddler軟體，用瀏覽器開啟目標網站(http://www.kuaidaili.com/proxylist/2/) 。可以發現瀏覽器對這個頁面載入了兩次，第一次回傳521，第二次才正常回傳資料。很多沒有寫過網站或是爬蟲經驗不足的童鞋，可能會覺得奇怪為什麼會這樣？為什麼瀏覽器可能正常回傳資料而程式碼卻不行？
圖文詳解Python爬蟲破解JS加密的Cookie步驟

　　仔細觀察兩次回傳的結果可以發現：

圖文詳解Python爬蟲破解JS加密的Cookie步驟

##　　1 、第二次請求比第一次請求的Cookie內容多了個這個

_ydclearance=0c316df6ea04c5281b421aa8-5570-47ae-9768-2510d9fe9107-1490254971##2、　#2、　#2、　第一次的內容返回第一次、2　一些複雜看不懂的JS程式碼，第二次回傳的就是正確的內容

　　其實這是網站反爬蟲的常用手段。大致過程是這樣的：首次請求資料時，服務端傳回動態的混淆加密過的JS，而這段JS的作用是為Cookie新增新的內容用於服務端驗證，此時傳回的狀態碼是521。瀏覽器帶上新的Cookie再次請求，服務端驗證Cookie透過回傳資料(這也是為嘛程式碼不能回傳資料的原因)。

解決問題

　　其實我第一次遇到這樣的問題是，一開始想的就是既然你是用JS生成的Cookie, 那我也可以將JS函數翻譯成Python運行。但最後還是發現我太傻太天真，因為現在的JS都流行混淆加密，原始的JS這樣的:

function lq(VA) {
    var qo, mo = "", no = "", oo = [0x8c, 0xcd, 0x4c, 0xf9, 0xd7, 0x4d, 0x25, 0xba, 0x3c, 0x16, 0x96, 0x44, 0x8d, 0x0b, 0x90, 0x1e, 0xa3, 0x39, 0xc9, 0x86, 0x23, 0x61, 0x2f, 0xc8, 0x30, 0xdd, 0x57, 0xec, 0x92, 0x84, 0xc4, 0x6a, 0xeb, 0x99, 0x37, 0xeb, 0x25, 0x0e, 0xbb, 0xb0, 0x95, 0x76, 0x45, 0xde, 0x80, 0x59, 0xf6, 0x9c, 0x58, 0x39, 0x12, 0xc7, 0x9c, 0x8d, 0x18, 0xe0, 0xc5, 0x77, 0x50, 0x39, 0x01, 0xed, 0x93, 0x39, 0x02, 0x7e, 0x72, 0x4f, 0x24, 0x01, 0xe9, 0x66, 0x75, 0x4e, 0x2b, 0xd8, 0x6e, 0xe2, 0xfa, 0xc7, 0xa4, 0x85, 0x4e, 0xc2, 0xa5, 0x96, 0x6b, 0x58, 0x39, 0xd2, 0x7f, 0x44, 0xe5, 0x7b, 0x48, 0x2d, 0xf6, 0xdf, 0xbc, 0x31, 0x1e, 0xf6, 0xbf, 0x84, 0x6d, 0x5e, 0x33, 0x0c, 0x97, 0x5c, 0x39, 0x26, 0xf2, 0x9b, 0x77, 0x0d, 0xd6, 0xc0, 0x46, 0x38, 0x5f, 0xf4, 0xe2, 0x9f, 0xf1, 0x7b, 0xe8, 0xbe, 0x37, 0xdf, 0xd0, 0xbd, 0xb9, 0x36, 0x2c, 0xd1, 0xc3, 0x40, 0xe7, 0xcc, 0xa9, 0x52, 0x3b, 0x20, 0x40, 0x09, 0xe1, 0xd2, 0xa3, 0x80, 0x25, 0x0a, 0xb2, 0xd8, 0xce, 0x21, 0x69, 0x3e, 0xe6, 0x80, 0xfd, 0x73, 0xab, 0x51, 0xde, 0x60, 0x15, 0x95, 0x07, 0x94, 0x6a, 0x18, 0x9d, 0x37, 0x31, 0xde, 0x64, 0xdd, 0x63, 0xe3, 0x57, 0x05, 0x82, 0xff, 0xcc, 0x75, 0x79, 0x63, 0x09, 0xe2, 0x6c, 0x21, 0x5c, 0xe0, 0x7d, 0x4a, 0xf2, 0xd8, 0x9c, 0x22, 0xa3, 0x3d, 0xba, 0xa0, 0xaf, 0x30, 0xc1, 0x47, 0xf4, 0xca, 0xee, 0x64, 0xf9, 0x7b, 0x55, 0xd5, 0xd2, 0x4c, 0xc9, 0x7f, 0x25, 0xfe, 0x48, 0xcd, 0x4b, 0xcc, 0x81, 0x1b, 0x05, 0x82, 0x38, 0x0e, 0x83, 0x19, 0xe3, 0x65, 0x3f, 0xbf, 0x16, 0x88, 0x93, 0xdd, 0x3b];
    qo = "qo=241; do{oo[qo]=(-oo[qo])&0xff; oo[qo]=(((oo[qo]>>3)|((oo[qo]<<5)&0xff))-70)&0xff;} while(--qo>=2);";
    eval(qo);
    qo = 240;
    do {
        oo[qo] = (oo[qo] - oo[qo - 1]) & 0xff;
    } while (--qo >= 3);
    qo = 1;
    for (; ;) {
        if (qo > 240) break;
        oo[qo] = ((((((oo[qo] + 2) & 0xff) + 76) & 0xff) << 1) & 0xff) | (((((oo[qo] + 2) & 0xff) + 76) & 0xff) >> 7);
        qo++;
    }
    po = "";
    for (qo = 1; qo < oo.length - 1; qo++) if (qo % 6) po += String.fromCharCode(oo[qo] ^ VA);
    eval("qo=eval;qo(po);");
}

登入後複製

　　看到這樣的JS代碼，我只能說原諒我JS能力差，還原不了。。。

　　但是前端經驗豐富的童鞋馬上就能想到還有種方法可解，那就是利用瀏覽器的JS程式碼調試功能。這樣一切就迎刃而解，新建一個html文件，將第一次返回的html原文複製進去，保存用瀏覽器打開，在eval之前打上斷點，看到這樣的輸出:

　　可以看到这个变量po为document.cookie='_ydclearance=0c316df6ea04c5281b421aa8-5570-47ae-9768-2510d9fe9107-1490254971; expires=Thu, 23-Mar-17 07:42:51 GMT; domain=.kuaidaili.com; path=/'; window.document.location=document.URL,下面还有个eval("qo=eval;qo(po);")。JS里面的eval和Python的差不多，第二句的意思就是将eval方法赋给qo。然后去eval字符串po。而字符串po的前半段的意思是给浏览器添加Cooklie,后半段window.document.location=document.URL是刷新当前页面。

　　这也印证了我上面的说法，首次请求没有Cookie，服务端回返回一段生成Cookie并自动刷新的JS代码。浏览器拿到代码能够成功执行，带着新的Cookie再次请求获取数据。而Python拿到这段代码就只能停留在第一步。

　　那么如何才能使Python也能执行这段JS呢，答案是PyV8。V8是Chromium中内嵌的javascript引擎，号称跑的最快。PyV8是用Python在V8的外部API包装了一个python壳，这样便可以使python可以直接与javascript操作。PyV8的安装大家可以自行百度。

代码

　　分析完成，下面切入正题撸代码。

　　首先是正常请求网页，返回带加密的JS函数的html:

import re
import PyV8
import requests

TARGET_URL = "http://www.kuaidaili.com/proxylist/1/"

def getHtml(url, cookie=None):
    header = {
        "Host": "www.kuaidaili.com",
        'Connection': 'keep-alive',
        'Cache-Control': 'max-age=0',
        'Upgrade-Insecure-Requests': '1',
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.87 Safari/537.36',
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
        'Accept-Encoding': 'gzip, deflate, sdch',
        'Accept-Language': 'zh-CN,zh;q=0.8',
    }
    html = requests.get(url=url, headers=header, timeout=30, cookies=cookie).content
    return html
# 第一次访问获取动态加密的JS
first_html = getHtml(TARGET_URL)

登入後複製

　　由于返回的是html，并不单纯的JS函数，所以需要用正则提取JS函数的参数的参数。

圖文詳解Python爬蟲破解JS加密的Cookie步驟

# 提取其中的JS加密函数
js_func = ''.join(re.findall(r'(function .*?)', first_html))

print 'get js func:\n', js_func

# 提取其中执行JS函数的参数
js_arg = ''.join(re.findall(r'setTimeout\(\"\D+\((\d+)\)\"', first_html))

print 'get ja arg:\n', js_arg

登入後複製

　　还有一点需要注意，在JS函数中并没有返回cookie，而是直接将cookie set到浏览器，所以我们需要将eval("qo=eval;qo(po);")替换成return po。这样就能成功返回po中的内容。

# -*- coding: utf-8 -*-"""
-------------------------------------------------
   File Name：     demo_1.py.py  
   Description :  Python爬虫—破解JS加密的Cookie 快代理网站为例：http://www.kuaidaili.com/proxylist/1/
                  Document:
   Author :       JHao
   date：          2017/3/23
-------------------------------------------------
   Change Activity:
                   2017/3/23: 破解JS加密的Cookie
-------------------------------------------------
"""__author__ = 'JHao'import reimport PyV8import requests

TARGET_URL = "http://www.kuaidaili.com/proxylist/1/"def getHtml(url, cookie=None):
    header = {        "Host": "www.kuaidaili.com",        'Connection': 'keep-alive',        'Cache-Control': 'max-age=0',        'Upgrade-Insecure-Requests': '1',        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.87 Safari/537.36',        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',        'Accept-Encoding': 'gzip, deflate, sdch',        'Accept-Language': 'zh-CN,zh;q=0.8',
    }
    html = requests.get(url=url, headers=header, timeout=30, cookies=cookie).content    return htmldef executeJS(js_func_string, arg):
    ctxt = PyV8.JSContext()
    ctxt.enter()
    func = ctxt.eval("({js})".format(js=js_func_string))    return func(arg)def parseCookie(string):
    string = string.replace("document.cookie='", "")
    clearance = string.split(';')[0]    return {clearance.split('=')[0]: clearance.split('=')[1]}# 第一次访问获取动态加密的JSfirst_html = getHtml(TARGET_URL)# first_html = """#  # """# 提取其中的JS加密函数js_func = ''.join(re.findall(r'(function .*?)', first_html))print 'get js func:\n', js_func# 提取其中执行JS函数的参数js_arg = ''.join(re.findall(r'setTimeout\(\"\D+\((\d+)\)\"', first_html))print 'get ja arg:\n', js_arg# 修改JS函数，使其返回Cookie内容js_func = js_func.replace('eval("qo=eval;qo(po);")', 'return po')# 执行JS获取Cookiecookie_str = executeJS(js_func, js_arg)# 将Cookie转换为字典格式cookie = parseCookie(cookie_str)print cookie# 带上Cookie再次访问url,获取正确数据print getHtml(TARGET_URL, cookie)[0:500]

登入後複製

以上是圖文詳解Python爬蟲破解JS加密的Cookie步驟的詳細內容。更多資訊請關注PHP中文網其他相關文章！