masyarakat Belajar Perpustakaan Alatan Masa lapang

Melayu

Rumah > pembangunan bahagian belakang > Tutorial Python > 详解用python的BeautifulSoup分析html方法

详解用python的BeautifulSoup分析html方法

高洛峰

Lepaskan： 2017-03-31 11:36:53

asal

1601 orang telah melayarinya

1) 搜索tag：

find(tagname)        # 直接搜索名为tagname的tag 如：find('head')
find(list)           # 搜索在list中的tag，如: find(['head', 'body'])
find(dict)           # 搜索在dict中的tag，如:find({'head':True, 'body':True})
find(re.compile('')) # 搜索符合正则的tag, 如:find(re.compile('^p')) 搜索以p开头的tag
find(lambda)         # 搜索函数返回结果为true的tag, 如:find(lambda name: if len(name) == 1) 搜索长度为1的tag
find(True)           # 搜索所有tag

2) 搜索文字（text）

3) recursive, limit:

from bs4 import BeautifulSoup
import re
 
doc = ['<html><head><title>Page title</title></head>',
       '<body><p id="firstpara" align="center">This is paragraph <b>one</b>.',
       '<p id="secondpara" align="blah">This is paragraph <b>two</b>.',
       '</html>']
soup = BeautifulSoup(''.join(doc))
 
print soup.prettify()+"\n"
print soup.findAll('b')
 
print soup.findAll(text=re.compile("paragraph"))
print soup.findAll(text=True)
print soup.findAll(text=lambda(x):len(x)<12)
 
a = soup.findAll(re.compile('^b'))
print [tag.name for tag in a]
 
print [tag.name for tag in soup.html.findAll()]
print [tag.name for tag in soup.html.findAll(recursive=False)]
 
print soup.findAll('p',limit=1)

Salin selepas log masuk

Atas ialah kandungan terperinci 详解用python的BeautifulSoup分析html方法. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan：

python

sumber：php.cn

Artikel sebelumnya：详解使用Python对Excel进行读写操作方法 Artikel seterusnya：Python基础内容：函数

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel terbaru oleh pengarang

html设置加粗、倾斜、下划线、删除线等字体效果示例介绍

1970-01-01 08:00:00
实现一个 Java 版的 Redis

1970-01-01 08:00:00
最简单的微信小程序Demo

1970-01-01 08:00:00
python中pandas.DataFrame（创建、索引、增添与删除）的简单操作方法介绍

1970-01-01 08:00:00
微信小程序：如何实现tabs选项卡效果示例

1970-01-01 08:00:00
Python构造自定义方法来美化字典结构输出

1970-01-01 08:00:00
HTML5:使用Canvas实时处理Video

1970-01-01 08:00:00
Asp.net使用SignalR实现发送图片

1970-01-01 08:00:00
微信小程序开发教程-App()和Page()函数概述

1970-01-01 08:00:00
详解python redis使用方法

1970-01-01 08:00:00

Isu terkini

Python/MySQL tidak dapat mengekalkan data integer dengan betul Tiada kod diperlukan di sini. Saya mahu menyimpan nombor yang sangat panjang kerana saya s...

daripada 2024-04-04 19:09:44

0

1

367

Menggunakan selenium ingin mengklik dan menentukan URL dalam kelas Saya perlukan petua lain hari ini. Saya cuba membina kod Python/Selenium dan ideanya ialah...

daripada 2024-04-04 14:14:44

0

1

3492

Selenium + Python - periksa imej melalui execute_script Saya perlu mengesahkan bahawa imej dipaparkan pada halaman menggunakan selenium dalam pyth...

daripada 2024-04-03 09:32:15

0

1

375

Bagaimana untuk mengekalkan baris X pertama dan memadamkan baris jadual Saya mempunyai jadual besar dengan berjuta-juta rekod dalam MySQLincident_archive, saya ma...

daripada 2024-04-01 18:32:54

0

1

347

Bagaimana untuk mengikis teks Cuaca Google tertentu menggunakan BeautifulSoup? Bagaimana untuk mencari teks kursus "New York City, USA" dalam Python menggunaka...

daripada 2024-04-01 14:06:14

0

1

308

Topik-topik yang berkaitan

Lagi>

Cadangan popular

Tutorial Popular

Lagi>

Tutorial berkaitan

Cadangan popular

Kursus terkini

Muat turun terkini

Lagi>

kesan web

Kod sumber laman web

Bahan laman web

Templat hujung hadapan