Web サイトの変更を監視するための Python スクリプト-Python チュートリアル-php.cn

Web サイトの変更を監視するための Python スクリプト

王林

リリース： 2023-08-29 12:25:10

転載

1091 人が閲覧しました

Web サイトの変更を監視するための Python スクリプト

今日のデジタル時代では、Web サイトの最新の変更を知ることは、競合他社の Web サイトの更新の追跡、製品の入手可能性の監視、重要な情報の把握など、さまざまな目的にとって非常に重要です。 Web サイトの変更を手動で確認するのは時間がかかり、非効率的です。ここで自動化が活躍します。

このブログ投稿では、Web サイトの変更を監視する Python スクリプトを作成する方法を検討します。 Python といくつかの便利なライブラリを活用することで、Web サイトのコンテンツを取得し、以前のバージョンと比較し、変更があれば通知するプロセスを自動化できます。これにより、監視するサイトの更新や変更に対して積極的に対応し、迅速に対応することができます。

環境のセットアップ

Web サイトの変更を監視するスクリプトの作成を開始する前に、Python 環境をセットアップし、必要なライブラリをインストールする必要があります。開始するには、次の手順に従ってください -

Python のインストール − Python をまだダウンロードしてインストールしていない場合は、ダウンロードしてシステムにインストールします。 Python 公式 Web サイト (https://www.python.org/) にアクセスし、オペレーティングシステムと互換性のある最新バージョンをダウンロードできます。インストール中に、Python をシステムパスに追加するオプションを必ず選択してください。
新しい Python 仮想環境の作成 (オプション)− 依存関係を分離しておくために、このプロジェクトの仮想環境を作成することをお勧めします。ターミナルまたはコマンドプロンプトを開き、目的のプロジェクトディレクトリに移動して、次のコマンドを実行します:

リーリー

これにより、プロジェクトディレクトリに「website-monitor-env」という新しい仮想環境が作成されます。

仮想環境のアクティブ化 − オペレーティングシステムに基づいて適切なコマンドを実行して、仮想環境をアクティブ化します。

− リーリー macOS/Linux の場合

− リーリーコマンドプロンプトまたはターミナルに仮想環境名が表示され、仮想環境で作業していることがわかります。

− 仮想環境を有効化したら、必要なライブラリをインストールしましょう。ターミナルまたはコマンドプロンプトで、次のコマンドを実行します: リーリー

「requests」ライブラリは Web サイトのコンテンツの取得に役立ち、「Beautifulsoup4」は HTML の解析に役立ちます。

Python 環境をセットアップし、必要なライブラリをインストールしたら、Web サイト変更監視スクリプトの構築を開始できます。次のセクションでは、「リクエスト」ライブラリを使用して Web サイトのコンテンツを取得するプロセスについて説明します。

Web サイトのコンテンツを取得する

Web サイトの変更を監視するには、Web サイトの現在のコンテンツを取得し、以前に保存したバージョンと比較する必要があります。このセクションでは、「リクエスト」ライブラリを使用して Web サイトのコンテンツを取得します。次の手順に従ってください:

− Python スクリプトを開いて、最初に必要なモジュールをインポートします- リーリー
「requests」モジュールは HTTP リクエストを処理し、「bs4」モジュールの「BeautifulSoup」クラスは HTML コンテンツの解析に役立ちます。

− 監視する Web サイトの URL を決定します。たとえば、デモには URL「https://example.com」を使用します。これを、監視する Web サイトの実際の URL に置き換えます。

url = "https://example.com"

ログイン後にコピー

发送 GET 请求并检索内容− 使用“requests.get()”方法向网站 URL 发送 GET 请求并检索内容。将响应分配给变量以进行进一步处理。

response = requests.get(url)

ログイン後にコピー

检查响应状态−最好检查响应的状态以确保请求成功。我们将使用“response.status_code”属性，该属性应在请求成功时返回状态代码 200。

if response.status_code == 200:
    # Proceed with further processing
else:
    print("Failed to retrieve website content. Status code:", response.status_code)
    # Handle error or exit the script

ログイン後にコピー

检索网站内容后，您可以将其与之前保存的版本进行比较，以确定是否有任何更改。

保存并比较网站内容

一旦我们检索了网站内容，我们需要将其保存以供将来比较。在本节中，我们将讨论如何保存内容并将其与以前保存的版本进行比较。请按照以下步骤操作−

保存初始网站内容 − 检索网站内容后，将其保存到文件中以供将来比较。创建一个新文件并使用“write()”方法将内容写入其中。例如−

with open("website_content.txt", "w") as file:
    file.write(response.text)

ログイン後にコピー

这会将网站内容保存在当前目录中名为“website_content.txt”的文件中。

与之前的内容进行比较− 为了检测更改，我们需要将当前网站内容与之前保存的版本进行比较。从保存的文件中读取内容并将其与新内容进行比较。例如−

with open("website_content.txt", "r") as file:
    previous_content = file.read()

if response.text == previous_content:
    print("No changes detected.")
else:
    print("Website content has changed.")
    # Perform further actions for handling the changes

ログイン後にコピー

在这里，我们将响应中的新内容与从文件中读取的内容进行比较。如果它们匹配，则不会检测到任何更改。否则，我们会打印一条消息，表明网站内容已更改。

更新保存的内容 − 如果检测到更改，我们应该使用新版本更新保存的内容。这将确保下一次比较是针对最新内容进行的。使用与之前相同的文件写入逻辑来更新内容：

with open("website_content.txt", "w") as file:
    file.write(response.text)

ログイン後にコピー

通过覆盖文件，我们将新内容保存为最新版本。

通过执行以下步骤，您可以保存初始网站内容，将其与未来版本进行比较，并识别任何更改。在下一节中，我们将探讨如何使用 Python 脚本自动执行此过程。

自动化网站监控

每次我们想要监视网站的更改时手动运行脚本可能是乏味且不切实际的。在本节中，我们将讨论如何使用 Python 脚本和调度工具自动化网站监控过程。请按照以下步骤操作：

创建 Python 脚本− 打开您喜欢的 Python 编辑器或 IDE 并创建一个新的 Python 脚本文件。您可以将其命名为“website_monitor.py”。
导入必要的模块− 在脚本的开头，导入所需的模块，包括用于发出 HTTP 请求的“请求”和用于在请求之间添加延迟的“时间”。此外，导入您可能需要的任何其他模块，用于根据网站更改发送通知或执行其他操作。

import requests
import time
# Import other modules as needed

ログイン後にコピー

定义网站网址和监控间隔 − 通过将要监控的网站的 URL 分配给变量来设置它。另外，指定您要检查更改的时间间隔。此间隔可以以秒、分钟或任何其他合适的单位为单位。

website_url = "https://example.com"
monitoring_interval = 300  # Check every 5 minutes

ログイン後にコピー

创建监控函数− 定义一个封装监控逻辑的函数。该函数将负责发出 HTTP 请求、比较网站内容并根据更改执行任何所需的操作。

def monitor_website():
    while True:
        # Make the HTTP request to the website
        response = requests.get(website_url)

        # Compare the current content with the saved content
        with open("website_content.txt", "r") as file:
            previous_content = file.read()

        if response.text != previous_content:
            print("Website content has changed.")
            # Perform desired actions for handling the changes

        # Update the saved content
        with open("website_content.txt", "w") as file:
            file.write(response.text)

        # Wait for the specified interval before the next check
        time.sleep(monitoring_interval)

ログイン後にコピー