コミュニティ学ぶツールライブラリレジャー

日本語

ホームページ > バックエンド開発 > Python チュートリアル > Python は 4 つの方法を使用して、現在のページ内のすべてのリンクの比較分析を実行します。

Python は 4 つの方法を使用して、現在のページ内のすべてのリンクの比較分析を実行します。

黄舟

リリース： 2017-08-20 10:28:38

オリジナル

2046 人が閲覧しました

この記事では、Python で現在のページ内のすべてのリンクを取得する方法を主に紹介し、Python でページのリンクを取得する 4 つの一般的な方法を比較および分析します。また、必要な iframe フレーム内のリンクを取得する方法も付属しています。この記事の次の

例では、現在のページ内のすべてのリンクを取得する Python の 4 つのメソッドについて説明します。参考のために皆さんと共有してください。詳細は次のとおりです:

&#39;&#39;&#39;
得到当前页面所有连接
&#39;&#39;&#39;
import requests
import re
from bs4 import BeautifulSoup
from lxml import etree
from selenium import webdriver
url = &#39;http://www.testweb.com&#39;
r = requests.get(url)
r.encoding = &#39;gb2312&#39;
# 利用 re （太黄太暴力！）
matchs = re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\&#39;).+?(?=\&#39;)" , r.text)
for link in matchs:
  print(link)
print()
# 利用 BeautifulSoup4 （DOM树）
soup = BeautifulSoup(r.text,&#39;lxml&#39;)
for a in soup.find_all(&#39;a&#39;):
  link = a[&#39;href&#39;]
  print(link)
print()
# 利用 lxml.etree （XPath）
tree = etree.HTML(r.text)
for link in tree.xpath("//@href"):
  print(link)
print()
# 利用selenium（要开浏览器！）
driver = webdriver.Firefox()
driver.get(url)
for link in driver.find_elements_by_tag_name("a"):
  print(link.get_attribute("href"))
driver.close()

ログイン後にコピー

注: ページに iframe が含まれている場合、iframe に含まれるページのすべてのタグは、上記の 4 つの方法では取得できません。！！このとき:

rreee

以上がPython は 4 つの方法を使用して、現在のページ内のすべてのリンクの比較分析を実行します。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル：

python 成し遂げる方法

ソース：php.cn

前の記事：Python がログインを必要とする Web サイトのクロールコード例を実装する方法次の記事：Python での numpy によるニューラルネットワーク構造の柔軟な定義の例

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

著者別の最新記事

独自の PHP フレームワークをゼロから構築するためのビデオ資料

2023-03-15 16:54:01
PHPMailer が QQ メールボックスを使用して電子メール送信機能を完了する方法の分析例

2023-03-15 12:26:02
PHPでIMAPでメールを受信する方法の紹介

2023-03-14 18:58:01
PHP で配列の重複排除を迅速に実装する方法の例

2023-03-14 11:30:01
HTML でのタグのすべての属性の使用の概要

1970-01-01 08:00:00
PHPの基礎知識まとめ（初心者が始めるのに必要）

2023-03-16 15:20:01
JavaScript での typeof の使用の概要

1970-01-01 08:00:00
JavaScript でのconfirm() メソッドの使用の概要

1970-01-01 08:00:00
HTML5 プレースホルダー属性の詳細な紹介

1970-01-01 08:00:00
ReactJS のフォームに単一選択、複数選択、逆選択を実装する方法

1970-01-01 08:00:00

最新の問題

Python/MySQL は整数データを正しく保持できませんここではコードは必要ありません。ゲームを作成していてスコアを保存する必要があるため、非常に長い数値を保存したいと考えています。ただし、テストしてスコアを 25000000000 に...

から 2024-04-04 19:09:44

0

1

367

Seleniumを使用してクラス内でURLをクリックして定義したい今日はもう一つヒントが必要です。私は Python/Selenium コードを構築しようとしていますが、そのアイデアは www.thewebsiteIwantoclickon をク...

から 2024-04-04 14:14:44

0

1

3492

Selenium + Python -execute_script を介して画像を検査します Python の Selenium を使用して画像がページに表示されることを確認する必要があります。たとえば、https://openweathermap.org/ ページの左上隅...

から 2024-04-03 09:32:15

0

1

375

最初の X 行を保持し、テーブルの行を削除する方法 MySQLincident_archive に数百万のレコードを含む大きなテーブルがあります。作成した列で行をソートし、最初の X 行を保持し、残りを削除したいのですが、最も効率的...

から 2024-04-01 18:32:54

0

1

347

BeautifulSoupを使用して特定のGoogle天気テキストをスクレイピングする方法は? BeautifulSoupを使用してPythonでコーステキスト「米国ニューヨーク市」を見つけるにはどうすればよいですか?練習のためにビデオをコピーしようとしましたが、うまくいきま...

から 2024-04-01 14:06:14

0

1

308

関連トピック

詳細>

人気のおすすめ

人気のチュートリアル

詳細>

関連するチュートリアル

人気のおすすめ

最新のコース

最新のダウンロード

詳細>

ウェブエフェクト

公式サイト

サイト素材

フロントエンドテンプレート