


Conseils avancés de BeautifulSoup: Extraction des éléments HTML et remplissage d'espace réservé avec jugement conditionnel
1. Introduction: Manipulation conditionnelle manquante dans l'analyse HTML
Lorsque nous rampiez les données de la page Web, nous rencontrons souvent des situations où la structure HTML n'est pas complètement cohérente. Par exemple, dans un conteneur parent en double, certains éléments enfants peuvent exister, tandis que d'autres peuvent être manquants, ou leur contenu ne répond pas à nos critères d'extraction. Dans ce cas, si nous extraissons l'élément cible uniquement par filtrage simple, nous pouvons perdre les entrées correspondant au conteneur parent, résultant en la liste de données finales qui ne correspond pas à la structure d'origine. Pour résoudre ce problème, nous avons besoin d'un mécanisme pour insérer un espace réservé lorsque l'élément cible ne remplit pas les conditions pour maintenir l'intégrité de la structure des données.
2. Outils de base: Sélecteur BeautifulSoup et CSS
BeautifulSoup est une puissante bibliothèque d'analyse HTML / XML à Python. Il peut convertir des documents HTML complexes en un objet Python, ce qui nous permet de trouver et d'extraire des données à travers des noms de balises, des attributs ou des sélecteurs CSS. Parmi eux, la méthode Select () nous permet d'utiliser des sélecteurs CSS pour effectuer des recherches d'éléments efficaces et flexibles.
3. Analyse des problèmes: pourquoi ne suffit-il pas de filtrer directement?
Compte tenu de la structure HTML suivante, nous voulons extraire les attributs HREF de toutes les balises avec le site de nom de classe, mais en même temps, pour les cas où le parent Exemple de structure HTML: Si nous utilisons uniquement Soup.find_all ('A', Class _ = 'Site') ou Soup.Select ('A.Site'), nous obtiendrons une liste qui ne contient que www.example1.com, www.example2.com, et www.example3.com, et les entrées de Bogus seront complètement ignorées et ne peuvent pas insérer des places intermédiaires, détruisant ainsi la structure de données correspondant au numéro de la section d'origine. La sortie que nous attendons est: Pour atteindre l'objectif ci-dessus, nous pouvons adopter une méthode plus générale: sélectionnez d'abord tous les éléments enfants pertinents, puis décider quoi extraire via la dérivation de la liste combinée à un jugement conditionnel. Implémentation de Python: Analyse de code: Résultat de sortie: Cette méthode a une flexibilité extrêmement élevée et peut facilement s'adapter à différents besoins analytiques: Modifiez le jugement de la condition: vous pouvez modifier la condition au besoin. Par exemple, vérifiez si la balise contient un texte spécifique, s'il existe un autre attribut, ou si son élément parent satisfait une condition spécifique. Extraire différents attributs ou texte: En plus de l'attribut HREF, vous pouvez également extraire le contenu texte de la balise (a.get_text ()), d'autres attributs (a ["id"]) ou leurs éléments enfants. Gérer les structures plus complexes: s'il ne peut pas y avoir de balise à l'intérieur de la section, et vous souhaitez toujours générer une entrée pour chaque section, vous devez d'abord parcourir la section, puis rechercher la balise A à chaque section et faire des jugements conditionnels. En combinant intelligemment le sélecteur CSS de BeautifulSoup et les expressions conditionnelles dans les compréhensions de la liste Python, nous pouvons construire une logique d'analyse HTML puissante et flexible. Cette méthode peut non seulement extraire avec précision les données cibles, mais également insérer automatiquement les espaces réservés lorsque des conditions spécifiques ne sont pas remplies, conservant ainsi l'intégrité de la structure des données de sortie et sa correspondance avec la structure HTML d'origine, améliorant considérablement la robustesse et l'efficacité du traitement des données. <div class="section">
<a class="site" href="www.example1.com"> site1 </a>
</div>
<div class="section">
<a class="bogus" href="www.idontneed1.com"> idontneedthis1 </a>
</div>
<div class="section">
<a class="site" href="www.example2.com"> site2 </a>
</div>
<div class="section">
<a class="site" href="www.example3.com"> site3 </a>
</div>
<div class="section">
<a class="bogus" href="www.idontneed2.com"> idontneedthis2 </a>
</div>
[{"Site": "www.example1.com"}, {"Site": ""}, {"Site": "www.example2.com"}, {"Site": "www.example3.com"}, {"Site": ""}]
4. Solution générale: compréhension de la liste et jugement conditionnel
De BS4 Import BeautifulSoup
html_doc = "" "
<div class="section">
<a class="site" href="www.example1.com"> site1 </a>
</div>
<div class="section">
<a class="bogus" href="www.idontneed1.com"> idontneedthis1 </a>
</div>
<div class="section">
<a class="site" href="www.example2.com"> site2 </a>
</div>
<div class="section">
<a class="site" href="www.example3.com"> site3 </a>
</div>
<div class="section">
<a class="bogus" href="www.idontneed2.com"> idontneedthis2 </a>
</div>
"" "
Soup = BeautifulSoup (html_doc, 'html.parser')
# Utilisez le sélecteur CSS pour sélectionner la section de tous les éléments enfants directs <a>
# Créez ensuite la liste des résultats via la compréhension de la liste et le jugement conditionnel Résultat = [
{"Site": "" if "Bogus" dans a.get ("class", []) else a ["href"]}
pour a in Soup.Select (". Section> A")
]]
Imprimer (résultat)</a>
[{'Site': 'www.example1.com'}, {'Site': ''}, {'Site': 'www.example2.com'}, {'Site': 'www.example3.com'}, {'Site': ''}]
5. Flexibilité et évolutivité
# Exemple: si l'attribut HREF est vide, insérez "n / a"
# {"site": "n / a" sinon a.get ("href") else a ["href"]}
# Exemple: Extraire HREF Si le contenu texte contient "usineThis", sinon il est vide # {"site": a ["href"] si "utisthis" dans a.get_text () else ""}
# Exemple: si la section peut ne pas avoir de balise result_complex = []
pour section_div dans Soup.Select (". Section"):
a_tag = section_div.find ('a') # Trouvez la balise A dans la section actuelle si a_tag:
# Si une balise est trouvée, faites un jugement conditionnel result_complex.append ({"Site": "" if "Bogus" dans a_tag.get ("class", []) else a_tag ["href"]})
autre:
# S'il n'y a pas de balise, insérez l'espace réservé par défaut result_complex.append ({"site": ""})
print (result_complex)
6. Choses à noter
7. Résumé
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undress AI Tool
Images de déshabillage gratuites

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Stock Market GPT
Recherche d'investissement basée sur l'IA pour des décisions plus intelligentes

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Ce tutoriel détaille comment utiliser CSS pour masquer avec précision le contenu de texte spécifique dans les pages HTML pour éviter que le problème de l'ensemble de l'élément parent soit caché en raison de sélecteurs inappropriés. En ajoutant des classes CSS exclusives aux éléments d'emballage du texte cible et en utilisant l'affichage: aucun; Attribut, les développeurs peuvent obtenir un contrôle raffiné des éléments de page, en veillant à ce que seules les pièces requises soient masquées, optimisant ainsi la mise en page et l'expérience utilisateur.

Usemailto: inhreftocreateeemaillinks.startwithforbasiclinks, ajouter? Sujet = & body = forpre-fillutContent, andincludemultipleaddressorcc =, bcc = foradvancedOptions.

Cet article explore deux problèmes courants lors de l'appel des fonctions JavaScript externes dans HTML: un temps de chargement de script incorrect ne fait pas partie des éléments DOM, et la dénomination des fonctions peut entrer en conflit avec les événements ou les mots clés intégrés du navigateur. L'article fournit des solutions détaillées, y compris les emplacements de référence de script de peaufinage et les spécifications de dénomination des bonnes fonctions pour s'assurer que le code JavaScript est correctement exécuté.

Usethetitleattributeforsimpletooltipsorcssforcustom-styledones.1.addtitle = "text" toanyelementfordtooltips.2.ForStyledToolTips, wraptheelementInacontainer, use.tooltipand.tooltiptextclasseswithcspositioning, pseudo-elelights, et vissibilitycccc

SetThelangAttributeInthehtmltagtospecifypagelanguage, par exemple, français; 2. usocodes comme "ES" ForSpanishor "FR" Forfrench;.

USECSSFLOATPROPERTYTOWRAPTextArnanImage: FloatleftFortExtontheRight, FloatRightFortExtontheLeft, AddmarginForspacing, etClearFloatStopReventLayEtLaySues.

Cet article explore le défi de capturer des événements de Mousedown sur des divs parents contenant des iframes interdomains. Le problème de base est que les politiques de sécurité du navigateur (politique d'origine même) empêchent l'écoute d'événements DOM directe sur le contenu IFRAME inter-domaine. Ce type de capture d'événements ne peut pas être réalisé à moins que le nom de domaine source IFRAME soit contrôlé et que COR soit configuré. L'article expliquera ces mécanismes de sécurité en détail et leurs limites aux interactions des événements et fourniront des alternatives possibles.

Lorsque vous utilisez Bootstrap pour la mise en page de la page Web, les développeurs rencontrent souvent le problème des éléments affichés côte à côte plutôt que d'empiler verticalement par défaut, en particulier lorsque le conteneur parent applique la disposition Flexbox. Cet article explorera ce défi de mise en page commun en profondeur et fournira une solution: en ajustant l'attribut de direction flexible du conteneur Flex à la colonne, en utilisant la classe d'outils Flex-Colonne de Bootstrap pour obtenir la disposition verticale correcte des balises H1 et des blocs de contenu tels que les formulaires, garantissant que la structure de page répond aux attentes.
