Maison > développement back-end > Tutoriel Python > Cinquième méthode d'analyse du robot : XPath

Cinquième méthode d'analyse du robot : XPath

爱喝马黛茶的安东尼
Libérer: 2019-06-05 15:36:24
avant
2726 Les gens l'ont consulté

De nombreux langages peuvent être utilisés pour explorer, mais les robots basés sur python sont plus concis et pratiques. Les robots d’exploration sont également devenus un élément essentiel du langage Python. Il existe également de nombreuses façons d’analyser les robots. L'article précédent vous a parlé de la quatrième méthode d'analyse du robot : PyQuery Aujourd'hui, je vous présente une autre méthode, XPath.

Cinquième méthode danalyse du robot : XPath

Utilisation de base de XPath dans le robot d'exploration Python

1. Introduction

 XPath est un langage permettant de rechercher des informations dans des documents XML. XPath peut être utilisé pour parcourir des éléments et des attributs dans des documents XML. XPath est un élément majeur de la norme XSLT du W3C, et XQuery et XPointer sont construits sur des expressions XPath.

  

2. Installation

pip3 install lxml
Copier après la connexion

  

3. Utilisation

1 , importez

from lxml import etree
Copier après la connexion
Copier après la connexion

2. Utilisation de base

from lxml import etree
Copier après la connexion
Copier après la connexion
wb_data = """
        <div>
            <ul>
                 <li class="item-0"><a href="link1.html">first item</a></li>
                 <li class="item-1"><a href="link2.html">second item</a></li>
                 <li class="item-inactive"><a href="link3.html">third item</a></li>
                 <li class="item-1"><a href="link4.html">fourth item</a></li>
                 <li class="item-0"><a href="link5.html">fifth item</a>
             </ul>
         </div>
        """
html = etree.HTML(wb_data)
print(html)
result = etree.tostring(html)
print(result.decode("utf-8"))
Copier après la connexion

D'après les résultats ci-dessous, notre imprimante html est en fait un objet python, et etree.tostring(html) est la méthode d'écriture de base du HTML en Buquanli complète les balises auxquelles il manque des bras et des jambes.

<Element html at 0x39e58f0>
<html><body><div>
            <ul>
                 <li class="item-0"><a href="link1.html">first item</a></li>
                 <li class="item-1"><a href="link2.html">second item</a></li>
                 <li class="item-inactive"><a href="link3.html">third item</a></li>
                 <li class="item-1"><a href="link4.html">fourth item</a></li>
                 <li class="item-0"><a href="link5.html">fifth item</a>
             </li></ul>
         </div>
        </body></html>
Copier après la connexion

3. Récupérer le contenu d'une certaine balise (utilisation basique) Notez que pour obtenir tout le contenu de la balise a, il n'est pas nécessaire d'ajouter une barre oblique après a, sinon une erreur sera générée. signalé.

Méthode d'écriture un

html = etree.HTML(wb_data)
html_data = html.xpath(&#39;/html/body/div/ul/li/a&#39;)
print(html)
for i in html_data:
    print(i.text)
Copier après la connexion
<Element html at 0x12fe4b8>
first item
second item
third item
fourth item
fifth item
Copier après la connexion

Méthode d'écriture deux

(directement dans la balise où vous devez trouver le contenu Ajoutez simplement un /text() après)

html = etree.HTML(wb_data)
html_data = html.xpath(&#39;/html/body/div/ul/li/a/text()&#39;)
print(html)
for i in html_data:
    print(i)
Copier après la connexion

<Element html at 0x138e4b8>
first item
second item
third item
fourth item
fifth item
Copier après la connexion

4. Ouvrez et lisez le fichier html

#使用parse打开html的文件
html = etree.parse(&#39;test.html&#39;)
html_data = html.xpath(&#39;//*&#39;)<br>#打印是一个列表,需要遍历
print(html_data)
for i in html_data:
    print(i.text)
Copier après la connexion

​ ​

html = etree.parse(&#39;test.html&#39;)
html_data = etree.tostring(html,pretty_print=True)
res = html_data.decode(&#39;utf-8&#39;)
print(res)
Copier après la connexion

Imprimer :

<div>
     <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a></li>
     </ul>
</div>
Copier après la connexion

5. Imprimez les attributs du une balise sous le chemin spécifié (vous pouvez obtenir une certaine valeur d'un attribut, trouver le contenu de la balise)

html = etree.HTML(wb_data)
html_data = html.xpath(&#39;/html/body/div/ul/li/a/@href&#39;)
for i in html_data:
    print(i)
Copier après la connexion

Imprimer :

link1.html
link2.html
link3.html
link4.html
link5.html
Copier après la connexion

6. Nous sachez que nous utilisons XPath pour obtenir les objets ElementTree un par un. Donc, si vous avez besoin de trouver du contenu, vous devez toujours parcourir la liste des données.

Recherchez le contenu dont l'attribut a tag est égal à link2.html sous le chemin absolu.

html = etree.HTML(wb_data)
html_data = html.xpath(&#39;/html/body/div/ul/li/a[@href="link2.html"]/text()&#39;)
print(html_data)
for i in html_data:
    print(i)
Copier après la connexion

Imprimer :

['deuxième élément']

deuxième élément

7. Ci-dessus, nous trouvons tous les chemins absolus (chacun est recherché à partir de la racine), ci-dessous nous trouvons les chemins relatifs, par exemple, trouvons le contenu de la balise a sous toutes les balises li.

html = etree.HTML(wb_data)
html_data = html.xpath(&#39;//li/a/text()&#39;)
print(html_data)
for i in html_data:
    print(i)
Copier après la connexion

Imprimer :

[&#39;first item&#39;, &#39;second item&#39;, &#39;third item&#39;, &#39;fourth item&#39;, &#39;fifth item&#39;]
first item
second item
third item
fourth item
fifth item
Copier après la connexion

8. Ci-dessus, nous utilisons le chemin absolu pour trouver les attributs de toutes les balises a qui sont égales au href valeur de l'attribut, en utilisant C'est /---chemin absolu. Ensuite, nous utilisons le chemin relatif pour trouver la valeur de l'attribut href sous la balise a sous la balise li sous le chemin relatif l Notez que double // est requis après le a. étiqueter.

html = etree.HTML(wb_data)
html_data = html.xpath(&#39;//li/a//@href&#39;)
print(html_data)
for i in html_data:
    print(i)
Copier après la connexion

Imprimer :

[&#39;link1.html&#39;, &#39;link2.html&#39;, &#39;link3.html&#39;, &#39;link4.html&#39;, &#39;link5.html&#39;]
link1.html
link2.html
link3.html
link4.html
link5.html
Copier après la connexion

9. La méthode de vérification des attributs spécifiques sous les chemins relatifs est similaire à celle sous les chemins absolus.

html = etree.HTML(wb_data)
html_data = html.xpath(&#39;//li/a[@href="link2.html"]&#39;)
print(html_data)
for i in html_data:
    print(i.text)
Copier après la connexion

Imprimer :

[<Element a at 0x216e468>]
second item
Copier après la connexion

  10、查找最后一个li标签里的a标签的href属性

html = etree.HTML(wb_data)
html_data = html.xpath(&#39;//li[last()]/a/text()&#39;)
print(html_data)
for i in html_data:
    print(i)
Copier après la connexion

打印:

[&#39;fifth item&#39;]
fifth item
Copier après la connexion

  11、查找倒数第二个li标签里的a标签的href属性

html = etree.HTML(wb_data)
html_data = html.xpath(&#39;//li[last()-1]/a/text()&#39;)
print(html_data)
for i in html_data:
    print(i)
Copier après la connexion

打印:

[&#39;fourth item&#39;]
fourth item
Copier après la connexion

  12、如果在提取某个页面的某个标签的xpath路径的话,可以如下图:

  //*[@id="kw"]

  解释:使用相对路径查找所有的标签,属性id等于kw的标签。

Cinquième méthode d'analyse du robot : XPath

#!/usr/bin/env python
# -*- coding:utf-8 -*-
from scrapy.selector import Selector, HtmlXPathSelector
from scrapy.http import HtmlResponse
html = """<!DOCTYPE html>
<html>
    <head>
        <meta charset="UTF-8">
        <title></title>
    </head>
    <body>
        <ul>
            <li><a id=&#39;i1&#39; href="link.html">first item</a></li>
            <li><a id=&#39;i2&#39; href="llink.html">first item</a></li>
            <li><a href="llink2.html">second item<span>vv</span></a></li>
        </ul>
        <div><a href="llink2.html">second item</a></div>
    </body>
</html>
"""
response = HtmlResponse(url=&#39;http://example.com&#39;, body=html,encoding=&#39;utf-8&#39;)
# hxs = HtmlXPathSelector(response)
# print(hxs)
# hxs = Selector(response=response).xpath(&#39;//a&#39;)
# print(hxs)
# hxs = Selector(response=response).xpath(&#39;//a[2]&#39;)
# print(hxs)
# hxs = Selector(response=response).xpath(&#39;//a[@id]&#39;)
# print(hxs)
# hxs = Selector(response=response).xpath(&#39;//a[@id="i1"]&#39;)
# print(hxs)
# hxs = Selector(response=response).xpath(&#39;//a[@href="link.html"][@id="i1"]&#39;)
# print(hxs)
# hxs = Selector(response=response).xpath(&#39;//a[contains(@href, "link")]&#39;)
# print(hxs)
# hxs = Selector(response=response).xpath(&#39;//a[starts-with(@href, "link")]&#39;)
# print(hxs)
# hxs = Selector(response=response).xpath(&#39;//a[re:test(@id, "i\d+")]&#39;)
# print(hxs)
# hxs = Selector(response=response).xpath(&#39;//a[re:test(@id, "i\d+")]/text()&#39;).extract()
# print(hxs)
# hxs = Selector(response=response).xpath(&#39;//a[re:test(@id, "i\d+")]/@href&#39;).extract()
# print(hxs)
# hxs = Selector(response=response).xpath(&#39;/html/body/ul/li/a/@href&#39;).extract()
# print(hxs)
# hxs = Selector(response=response).xpath(&#39;//body/ul/li/a/@href&#39;).extract_first()
# print(hxs)
 
# ul_list = Selector(response=response).xpath(&#39;//body/ul/li&#39;)
# for item in ul_list:
#     v = item.xpath(&#39;./a/span&#39;)
#     # 或
#     # v = item.xpath(&#39;a/span&#39;)
#     # 或
#     # v = item.xpath(&#39;*/a/span&#39;)
#     print(v)
Copier après la connexion

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:csdn.net
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal