Pythonクローラーにおけるxpathの基本的な使い方を詳しく解説-Python チュートリアル-php.cn

Pythonクローラーにおけるxpathの基本的な使い方を詳しく解説

不言

リリース： 2018-04-27 11:01:56

オリジナル

4508 人が閲覧しました

この記事では主に Python クローラーでの xpath の基本的な使用方法を紹介し、参考として提供します。一緒に見てみましょう

1. はじめに

XPath は、XML ドキュメント内の情報を検索するための言語です。 XPath を使用すると、XML ドキュメント内の要素と属性をトラバースできます。 XPath は W3C XSLT 標準の主要な要素であり、XQuery と XPointer は両方とも XPath 式に基づいて構築されています。

2. インストール

rreee

を使用します。基本的な使い方

pip3 install lxml

ログイン後にコピー

以下からその結果、プリンターの HTML は実際には Python オブジェクトであり、etree.tostring(html) は不完全な HTML の基本的な記述メソッドであり、ラベルの欠落している腕と脚を完成させます。

from lxml import etree

ログイン後にコピー

3. 特定のタグの内容を取得する (基本的な使用法) a タグのすべての内容を取得するには、a の後にスラッシュを追加する必要はありません。そうしないとエラーが発生します。報告される。

書き方その1

from lxml import etree
wb_data = """
    <p>
      <ul>
         <li class="item-0"><a href="link1.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" >first item</a></li>

         <li class="item-1"><a href="link2.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >second item</a></li>

         <li class="item-inactive"><a href="link3.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" >third item</a></li>

         <li class="item-1"><a href="link4.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" >fourth item</a></li>

         <li class="item-0"><a href="link5.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" >fifth item</a>
       </ul>
     </p>

    """
html = etree.HTML(wb_data)
print(html)
result = etree.tostring(html)
print(result.decode("utf-8"))

ログイン後にコピー

書き方その2(見つける必要があるタグの直後に/text()を追加するだけです)

 <Element html at 0x39e58f0>
<html><body><p>
      <ul>
         <li class="item-0"><a href="link1.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" >first item</a></li>

         <li class="item-1"><a href="link2.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >second item</a></li>

         <li class="item-inactive"><a href="link3.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" >third item</a></li>

         <li class="item-1"><a href="link4.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" >fourth item</a></li>

         <li class="item-0"><a href="link5.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" >fifth item</a>

       </li></ul>
     </p>
    </body></html>

ログイン後にコピー

4. HTMLファイルを開いて読みます

html = etree.HTML(wb_data)

html_data = html.xpath(&#39;/html/body/p/ul/li/a&#39;)

print(html)

for i in html_data:

  print(i.text)

<Element html at 0x12fe4b8>

first item

second item

third item

fourth item

fifth item

ログイン後にコピー

html = etree.HTML(wb_data)

html_data = html.xpath(&#39;/html/body/p/ul/li/a/text()&#39;)

print(html)

for i in html_data:

  print(i) 

<Element html at 0x138e4b8>

first item

second item

third item

fourth item

fifth item

ログイン後にコピー

5. 指定されたパスの下にあるタグの属性を出力します (トラバースして属性の値を取得し、タグの内容を見つけることができます)

#使用parse打开html的文件

html = etree.parse(&#39;test.html&#39;)

html_data = html.xpath(&#39;//*&#39;)<br>#打印是一个列表，需要遍历

print(html_data)

for i in html_data:

  print(i.text)

ログイン後にコピー

Print:

link1.html

link2.html

link4.html
link5.html
6. xpath を使用して ElementTree オブジェクトを 1 つずつ取得することがわかっています。コンテンツを見つける必要がありますが、リストを走査してデータを取得する必要もあります。
絶対パス下のaタグ属性がlink2.htmlと等しいことが分かりました。

html = etree.parse(&#39;test.html&#39;)

html_data = etree.tostring(html,pretty_print=True)

res = html_data.decode(&#39;utf-8&#39;)

print(res)

 

打印：

<p>

   <ul>

     <li class="item-0"><a href="link1.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" >first item</a></li>

     <li class="item-1"><a href="link2.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >second item</a></li>

     <li class="item-inactive"><a href="link3.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" >third item</a></li>

     <li class="item-1"><a href="link4.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" >fourth item</a></li>

     <li class="item-0"><a href="link5.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" >fifth item</a></li>

   </ul>

</p>

ログイン後にコピー

Print:

['2 番目の項目']

2 番目の項目

7 上ではすべての絶対パス (それぞれルートから始まります) が見つかり、下では相対パス Path が見つかります。たとえば、すべての li タグの下にあるタグのコンテンツを検索します。
html = etree.HTML(wb_data)

html_data = html.xpath(&#39;/html/body/p/ul/li/a/@href&#39;)

for i in html_data:

  print(i)
ログイン後にコピー

印刷:

['最初のアイテム', '2番目のアイテム', '3番目のアイテム', '4番目のアイテム', '5番目のアイテム']

最初のアイテム

2番目のアイテム

3番目のアイテム
4 番目の項目
8. 上記では、href 属性値に等しい a タグのすべての属性を見つけるために絶対パスを使用しました。次に、絶対パスを使用します。 l を検索する相対パス a タグの下の li タグの下の相対パスの下の href 属性の値 a タグの後には二重の // が必要であることに注意してください。
html = etree.HTML(wb_data)

html_data = html.xpath(&#39;/html/body/p/ul/li/a[@href="link2.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" ]/text()&#39;)

print(html_data)

for i in html_data:

  print(i)
ログイン後にコピー
印刷:

['link1.html', 'link2.html', 'link3.html', 'link4.html', 'link5.html']

link1.html

link2.html

link3.html

link4.html
link5.html
9. 相対パスでの特定の属性の確認方法は、絶対パスでの確認方法と同様であると言えます。。
html = etree.HTML(wb_data)

html_data = html.xpath(&#39;//li/a/text()&#39;)

print(html_data)

for i in html_data:

  print(i)
ログイン後にコピー
Print:

[<0x216e468の要素a>]

2番目の項目

10. 最後のliタグのaタグのhref属性を見つけます

html = etree.HTML(wb_data)

html_data = html.xpath(&#39;//li/a//@href&#39;)

print(html_data)

for i in html_data:

  print(i)

ログイン後にコピー

。

Print :

['fifth item']

fifth item

11. 最後から 2 番目の li タグ

html = etree.HTML(wb_data)

html_data = html.xpath(&#39;//li/a[@href="link2.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" ]&#39;)

print(html_data)

for i in html_data:

  print(i.text)

ログイン後にコピー

の a タグの href 属性を見つけます。Print:

['fourth item' ]

4 番目の項目

12. ページ上のタグの xpath パスを抽出すると、次の図が表示されます:

html = etree.HTML(wb_data)

html_data = html.xpath(&#39;//li[last()]/a/text()&#39;)

print(html_data)

for i in html_data:

  print(i)
ログイン後にコピー
説明: 相対パスを使用してすべてのタグを検索し、属性 ID は kw タグと同じです。

よく使われる

html = etree.HTML(wb_data)

html_data = html.xpath(&#39;//li[last()-1]/a/text()&#39;)

print(html_data)

for i in html_data:

  print(i)

ログイン後にコピー