• 技术文章 >后端开发 >Python教程

    Python爬虫之怎么使用BeautifulSoup和Requests抓取网页数据

    WBOYWBOY2023-04-29 12:52:06转载124

    一、简介

    网络爬虫的实现原理可以归纳为以下几个步骤:

    二、网络爬虫的基本概念

    网络爬虫,又称网页蜘蛛、网络机器人,是一种自动从互联网上抓取网页信息的程序。爬虫通常按照一定的规则,访问网页并提取有用的数据。

    三、Beautiful Soup 和 Requests 库简介

    1. Beautiful Soup:一个用于解析 HTML 和 XML 文档的 Python 库,它提供了一种简单的方法来提取网页中的数据。

    2. Requests:一个简单易用的 Python HTTP 库,用于向网站发送请求并获取响应内容。

    四、选择一个目标网站

    本文将以维基百科的某个页面为例,抓取页面中的标题和段落信息。为简化示例,我们将爬取 Python 语言的维基百科页面(https://en.wikipedia.org/wiki/Python_(programming_language)。

    五、使用 Requests 获取网页内容

    首先,安装 Requests 库:

    pip install requests

    然后,使用 Requests 向目标网址发送 GET 请求,并获取网页的 HTML 内容:

    import requests
     
    url = "https://en.wikipedia.org/wiki/Python_(programming_language)"
    response = requests.get(url)
    html_content = response.text

    六、使用 Beautiful Soup 解析网页内容

    安装 Beautiful Soup:

    pip install beautifulsoup4

    接下来,使用 Beautiful Soup 解析网页内容,并提取所需数据:

    from bs4 import BeautifulSoup
     
    soup = BeautifulSoup(html_content, "html.parser")
     
    # 提取标题
    title = soup.find("h2", class_="firstHeading").text
     
    # 提取段落
    paragraphs = soup.find_all("p")
    paragraph_texts = [p.text for p in paragraphs]
     
    # 打印提取到的数据
    print("Title:", title)
    print("Paragraphs:", paragraph_texts)

    七、提取所需数据并保存

    将提取到的数据保存到文本文件中:

    with open("wiki_python.txt", "w", encoding="utf-8") as f:
        f.write(f"Title: {title}\n")
        f.write("Paragraphs:\n")
        for p in paragraph_texts:
            f.write(p)
            f.write("\n")

    以上就是Python爬虫之怎么使用BeautifulSoup和Requests抓取网页数据的详细内容,更多请关注php中文网其它相关文章!

    声明:本文转载于:亿速云,如有侵犯,请联系admin@php.cn删除
    上一篇:Python如何实现对中文文本分段分句 下一篇:自己动手写 PHP MVC 框架(40节精讲/巨细/新人进阶必看)

    相关文章推荐

    • python中CURL和python requests的相互转换如何实现• 怎么使用Python读写二进制文件• python os库常用方法有哪些• Python这些操作,逆天且实用!• Python程序的分支结构实例代码分析
    1/1

    PHP中文网