Explication détaillée de la gestion des exceptions de page et de la fonction de nouvelle tentative dans la mise en œuvre Python de l'application d'acquisition de navigateur sans tête

王林
Libérer: 2023-08-09 13:13:06
original
986 Les gens l'ont consulté

Explication détaillée de la gestion des exceptions de page et de la fonction de nouvelle tentative dans la mise en œuvre Python de lapplication dacquisition de navigateur sans tête

Explication détaillée de l'implémentation par Python des fonctions de gestion des exceptions de page et de nouvelle tentative pour les applications de collecte de navigateurs sans tête

Introduction :
Dans les robots d'exploration Web, l'utilisation de navigateurs sans tête pour la collecte de données est devenue un moyen très courant. Les navigateurs sans tête peuvent simuler le comportement réel du navigateur, analyser le contenu généré par JavaScript et également fournir davantage de fonctions de contrôle des requêtes réseau et de traitement des pages. Cependant, en raison de la complexité de l'environnement réseau, nous pouvons rencontrer diverses exceptions lors de la collecte de pages, ce qui nous oblige à gérer les exceptions et à concevoir un mécanisme de nouvelle tentative pour garantir l'intégrité et l'exactitude des données.

Texte :
En Python, nous pouvons utiliser la bibliothèque Selenium pour travailler avec des navigateurs sans tête tels que Headless Chrome ou Firefox pour implémenter la fonction de collection de pages. Ce qui suit présentera en détail comment implémenter les fonctions de gestion des exceptions de page et de nouvelle tentative en Python.

Étape 1 : Installez et configurez les bibliothèques et les pilotes requis
Tout d'abord, nous devons installer la bibliothèque Selenium et le pilote de navigateur sans tête requis, tel que ChromeDriver ou GeckoDriver (pour Firefox). Vous pouvez installer les bibliothèques requises via pip :

pip install selenium
Copier après la connexion

En même temps, vous devez également télécharger le pilote de navigateur sans tête correspondant pour vous assurer qu'il correspond à la version du navigateur installée.

Étape 2 : Importer les bibliothèques requises et définir les options du navigateur
Dans le script Python, nous devons importer la bibliothèque Selenium ainsi que les autres bibliothèques requises, comme indiqué ci-dessous :

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
Copier après la connexion

Ensuite, nous pouvons définir les options du navigateur, notamment l'activation du mode sans tête, définition des en-têtes de requête, définition du proxy, etc. Voici un exemple :

options = Options()
options.add_argument('--headless')  # 启用无头模式
options.add_argument('--no-sandbox')  # 避免在Linux上的一些问题
options.add_argument('--disable-dev-shm-usage')
Copier après la connexion

En fonction des besoins réels, le comportement du navigateur peut être personnalisé avec plus d'options fournies dans la documentation Selenium.

Étape 3 : Définir la fonction de gestion des exceptions et la logique de nouvelle tentative
Lors de la collecte de pages, nous pouvons rencontrer diverses exceptions réseau, telles que le délai d'attente du réseau, les erreurs de chargement de page, etc. Afin d'améliorer le taux de réussite de la collecte, nous pouvons définir une fonction de gestion des exceptions pour gérer ces exceptions et réessayer.

Ce qui suit est un exemple de fonction de gestion des exceptions et de logique de nouvelle tentative :

def handle_exceptions(driver):
    try:
        # 进行页面采集操作
        # ...
    except TimeoutException:
        print('页面加载超时,正在进行重试...')
        # 刷新页面重试
        driver.refresh()
        handle_exceptions(driver)
    except WebDriverException:
        print('浏览器异常,正在进行重试...')
        # 重新创建浏览器实例重试
        driver.quit()
        driver = webdriver.Chrome(options=options)
        handle_exceptions(driver)
    except Exception as e:
        print('其他异常:', str(e))
        # 其他异常处理逻辑
        # ...

# 创建浏览器实例
driver = webdriver.Chrome(options=options)

# 调用异常处理函数开始采集
handle_exceptions(driver)
Copier après la connexion

Dans la fonction de gestion des exceptions, nous utilisons d'abord l'instruction try-sauf pour intercepter les exceptions telles que TimeoutException et WebDriverException. Pour TimeoutException, nous pouvons essayer d'actualiser la page pour réessayer ; pour WebDriverException, il se peut que l'instance du navigateur ait une exception, et nous pouvons essayer de recréer l'instance du navigateur pour réessayer. Dans le même temps, nous pouvons également effectuer d'autres logiques de gestion des exceptions en fonction de circonstances spécifiques.

Étape 4 : Ajouter une limite sur le nombre de tentatives
Afin d'éviter des tentatives infinies, nous pouvons ajouter une limite sur le nombre de tentatives dans la fonction de gestion des exceptions. Voici un exemple :

RETRY_LIMIT = 3

def handle_exceptions(driver, retry_count=0):
    try:
        # 进行页面采集操作
        # ...
    except TimeoutException:
        print('页面加载超时,正在进行重试...')
        if retry_count < RETRY_LIMIT:
            # 刷新页面重试
            driver.refresh()
            handle_exceptions(driver, retry_count+1)
    except WebDriverException:
        print('浏览器异常,正在进行重试...')
        if retry_count < RETRY_LIMIT:
            # 重新创建浏览器实例重试
            driver.quit()
            driver = webdriver.Chrome(options=options)
            handle_exceptions(driver, retry_count+1)
    except Exception as e:
        print('其他异常:', str(e))
        if retry_count < RETRY_LIMIT:
            # 其他异常处理逻辑
            # ...
            handle_exceptions(driver, retry_count+1)

# 创建浏览器实例
driver = webdriver.Chrome(options=options)

# 调用异常处理函数开始采集
handle_exceptions(driver)
Copier après la connexion

Dans l'exemple ci-dessus, nous avons défini une constante RETRY_LIMIT pour limiter le nombre de tentatives. Si le nombre de tentatives est inférieur à la limite, une nouvelle tentative sera effectuée, sinon elle ne sera pas réessayée.

Résumé :
Cet article explique comment utiliser la bibliothèque Selenium et le navigateur sans tête en Python pour implémenter les fonctions de gestion des exceptions de page et de nouvelle tentative. En définissant correctement les options du navigateur, en définissant les fonctions de gestion des exceptions et la logique de nouvelle tentative, et en ajoutant des limites au nombre de tentatives, nous pouvons améliorer le taux de réussite de la collecte de pages et garantir l'intégrité et l'exactitude des données.

Des exemples de code ont été fournis dans les étapes pertinentes, et les lecteurs peuvent les modifier et les étendre en fonction de leurs besoins réels. J'espère que cet article pourra fournir de l'aide et des références aux développeurs qui utilisent des navigateurs sans tête pour la collecte de données, accélérer l'efficacité du développement et améliorer la qualité de la collecte.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal
À propos de nous Clause de non-responsabilité Sitemap
Site Web PHP chinois:Formation PHP en ligne sur le bien-être public,Aidez les apprenants PHP à grandir rapidement!