• 技术文章 >后端开发 >Python教程

    面对JS渲染的网页如何分析Ajax请求

    爱喝马黛茶的安东尼爱喝马黛茶的安东尼2019-06-05 18:03:02转载1689
    我们在用python进行爬虫时,可能都遇到过有些网页直接请求得到的 HTML 代码里面,并没有我们需要的数据,也就是我们在浏览器中看到的内容。

    这就是因为这些信息是通过Ajax加载的,并且通过js渲染生成的。这个时候我们就需要分析这个网页的请求了。

    上一篇给大家讲解了什么是Cookie及模拟登录的操作流程,今天给大家带来的是如何分析网页的Ajax请求。

    zz.jpg

    什么是Ajax

    AJAX即“Asynchronous Javascript And XML”(异步JavaScript和XML),是指一种创建交互式网页应用的网页开发技术。
    AJAX = 异步 JavaScript和XML(标准通用标记语言的子集)。
    AJAX 是一种用于创建快速动态网页的技术。
    AJAX 是一种在无需重新加载整个网页的情况下,能够更新部分网页的技术。

    简单的说就是网页加载,浏览器地址栏的网址并没有变,是javascript异步加载的网页,应该是ajax。AJAX一般是通过XMLHttpRequest 对象接口发送请求的,XMLHttpRequest 一般被缩写为 XHR。

    分析果壳网站点

    我们目标网站就以果壳网来进行分析。

    我们可以看到这个网页并没有翻页按钮,而当我们一直往下拉请求,网页会自动的给我们加载出更多内容。但是,当我们观察网页url时,发现它并没有随着网页的加载请求而变化。而当我们直接请求这个url时,显然我们只能获得到第一页的html内容。

    那我们要怎么获得所有页的数据呢?

    我们在Chrome中打开开发者工具(F12)。我们点击Network,点击XHR标签。然后我们刷新网页,往下拉请求。这个时候我们就可以看到XHR标签,在网页每一次加载的时候就会跳出一个请求。

    我们点击第一个请求,可以看到他的参数:

    retrieve_type:by_subject
    limit:20
    offset:18
    -:1500265766286

    在点击第二个请求,参数如下:

    retrieve_type:by_subject
    limit:20
    offset:38
    -:1500265766287

    limit参数是网页每一页限制加载的文章数,offset就是页数了。接着往下看,我们会发现每一个请求的offset参数都会加 20。

    我们接着看每一个请求的响应内容,这是一个就是格式的数据。我们点开result键,可以看到一个 20 篇文章的数据信息。这样我们就成功找到我们需要的信息位置了,我们可以在请求头中看到存放json数据的url地址。http://www.guokr.com/apis/minisite/article.json?retrieve_type=by_subject&limit=20&offset=18

    爬取流程

    分析Ajax请求获得每一页的文章url信息;解析每一篇文章,获得需要数据;将获得的数据保存数据库;开启多进程,大量抓取。

    开始

    我们的工具仍然使用requests请求,BeautifulSoup解析。

    首先我们要通过分析Ajax请求,获得所有页的信息,通过对上面对网页的分析,可以得到Ajax加载的json数据的URL地址为:http://www.guokr.com/apis/minisite/article.json?retrieve_type=by_subject&limit=20&offset=18

    我们需要构造这个 URL。

    # 导入可能要用到的模块
    import requests
    from urllib.parse import urlencode
    from requests.exceptions import ConnectionError
     
    # 获得索引页的信息
    def get_index(offset):
        base_url = 'http://www.guokr.com/apis/minisite/article.json?'
        data = {
            'retrieve_type': "by_subject",
            'limit': "20",
            'offset': offset
        }
        params = urlencode(data)
        url = base_url + params
     
        try:
            resp = requests.get(url)
            if resp.status_code == 200:
                return resp.text
            return None
        except ConnectionError:
            print('Error.')
            return None

    我们把上面分析页面得到的请求参数构造成一个字典data,然后我们可以手动的构造这个url,但是urllib库已经给我们提供了一个编码方法,我们直接使用,就可以构造出完整的url了。然后是标准的requests请求页面内容。

    import json
     
    # 解析json,获得文章url
    def parse_json(text):
        try:
            result = json.loads(text)
            if result:
                for i in result.get('result'):
                    # print(i.get('url'))
                    yield i.get('url')
        except:
            pass

    我们使用josn.loads方法解析json,将其转化成一个json对象。然后直接通过字典的操作,获得文章的url地址。这里使用yield,每次请求返回一个url,降低内存的消耗。由于我在后面抓取的时候出跳出一个json解析的错误,这里直接过滤就好。

    这里我们可以试着打印看看,是不是成功运行。

    既然获得了文章的url,那么对于获得文章的数据就显得很简单了。这里不在进行详细的叙述。我们的目标是获得文章的标题,作者和内容。
    由于有的文章里面包含一些图片,我们直接过滤掉文章内容里的图片就好了。

    from bs4 import BeautifulSoup
     
    # 解析文章页
    def parse_page(text):
        try:
            soup = BeautifulSoup(text, 'lxml')
            content = soup.find('div', class_="content")
            title = content.find('h1', id="articleTitle").get_text()
            author = content.find('div', class_="content-th-info").find('a').get_text()
            article_content = content.find('div', class_="document").find_all('p')
            all_p = [i.get_text() for i in article_content if not i.find('img') and not i.find('a')]
            article = '\n'.join(all_p)
            # print(title,'\n',author,'\n',article)
            data = {
                'title': title,
                'author': author,
                'article': article
            }
            return data
        except:
            pass

    这里在进行多进程抓取的时候,BeautifulSoup也会出现一个错误,依然直接过滤。我们把得到的数据保存为字典的形式,方便保存数据库。

    接下来就是保存数据库的操作了,这里我们使用Mongodb进行数据的存储。

    import pymongo
    from config import *
     
    client = pymongo.MongoClient(MONGO_URL, 27017)
    db = client[MONGO_DB]
     
    def save_database(data):
        if db[MONGO_TABLE].insert(data):
            print('Save to Database successful', data)
            return True
        return False

    我们把数据库的名字,和表名保存到config配置文件中,在把配置信息导入文件,这样会方便代码的管理。

    最后呢,由于果壳网数据还是比较多的,如果想要大量的抓取,我们可以使用多进程。

    from multiprocessing import Pool
     
    # 定义一个主函数
    def main(offset):
        text = get_index(offset)
        all_url = parse_json(text)
        for url in all_url:
            resp = get_page(url)
            data = parse_page(resp)
            if data:
                save_database(data)
     
    if __name__ == '__main__':
        pool = Pool()
        offsets = ([0] + [i*20+18 for i in range(500)])
        pool.map(main, offsets)
        pool.close()
        pool.join()

    函数的参数offset就是页数了。经过我的观察,果壳网最后一页页码是 12758,有 637 页。这里我们就抓取 500 页。进程池的map方法和Python内置的map方法使用类似。

    好了,对于一些使用Ajax加载的网页,我们就可以这么抓取了。

    以上就是面对JS渲染的网页如何分析Ajax请求的详细内容,更多请关注php中文网其它相关文章!

    声明:本文转载于:CSDN,如有侵犯,请联系admin@php.cn删除
    专题推荐:python 爬虫 Ajax
    上一篇:强大的爬虫框架Scrapy是什么? 下一篇:python可以开发什么
    Web大前端开发直播班

    相关文章推荐

    • 浅谈Ajax是什么?Ajax有什么用?• ajax请求过程以及请求方法的讲解(代码示例)• 什么是爬虫和爬虫的基本流程• 爬虫能获取什么样的数据和具体的解析方式• 爬虫的解析方式五:XPath

    全部评论我要评论

  • 取消发布评论发送
  • 1/1

    PHP中文网