html - python中怎么获取某个网页元素之前的所有源码?
天蓬老师
天蓬老师 2017-04-18 09:47:08
0
5
977
<html>
    <head>
        <title>The Dormouse's story </title>
    </head> 
    <body> 
        <p id="p1">p1p1p1
            <b id='b1'>b1b1b1</b>
        </p> 
        <p id="p2">p2p2p2
            <ul id='u1'>u1u1u1</ul>
            <a id="a1">a1a1a1</a>
            <p id='d1'>
                <a id="a2">a2a2a2 </a>
                <b id='b2'>b2b2b2</b>
                <p id='p3'>p3p3p3</p>
            </p>
            <a id="a3">a3a3a3 </a>
        </p> 
        <p id="p4">p4p4p4</p>
    </body>
</html>

比如第一个a元素:a#a1,要获取这个元素以上的所有网页源码:

<html>
    <head>
        <title>The Dormouse's story </title>
    </head> 
    <body> 
        <p id="p1">p1p1p1
            <b id='b1'>b1b1b1</b>
        </p> 
        <p id="p2">p2p2p2
            <ul id='u1'>u1u1u1</ul>
            <a id="a1">a1a1a1</a>
        </p>
    </body>
</html>
天蓬老师
天蓬老师

欢迎选择我的课程,让我们一起见证您的进步~~

全員に返信(5)
阿神

元の HTML が標準に達していないため、少し変更しました。
以下は lxml を使用して行われます。

リーリー
いいねを押す +0
PHPzhong

bs4 を使用して抽出します

いいねを押す +0
洪涛

リーリー

いいねを押す +0
阿神

初心者、私は re モジュールしか学ばなかったので、re モジュール + 通常の抽出方法のみを使用しました

リーリー
いいねを押す +0
伊谢尔伦

be モジュールが最も便利です

いいねを押す +0
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート