python - bs4怎么匹配紧跟div后面的li标签 -PHP中文网问答

文章专题学习下载问答编程词典手游最近更新

简体中文(ZH-CN) English(EN) 繁体中文(ZH-TW) 日本語(JA) 한국어(KO) Melayu(MS) Français(FR) Deutsch(DE)

python - bs4怎么匹配紧跟div后面的li标签

高洛峰 2017-04-17 17:23:26

347

from bs4 import BeautifulSoup html='''  A 
 AA 
 a1
 a2
  B 
 BB 
  b1
  b2
  b3
  C 
 CC
  c1
 ''' soup=BeautifulSoup(html,'lxml',from_encoding='utf-8') for p in soup.findAll('p'): print(p.text,end="") for dt in p.find_all_next("li"): print("\t",dt.text,end=",") print()

期望输出 AA a1,a2 BB b1,b2,b3 CC c1

但是结果输出是
AA a1, a2, b1, b2, b3, c1,
BB b1, b2, b3, c1,
CC c1,

高洛峰

拥有18年软件开发和IT教学经验。曾任多家上市公司技术总监、架构师、项目经理、高级软件工程师等职务。网络人气名人讲师，...

全部回复 (2)

大家讲道理2017-04-17 17:25:26 2 楼

find_all_next()通过 .next_elements 属性对当前tag的之后的 tag和字符串进行迭代返回所有符合条件的节点
是直接迭代到底的不能这样用
用.next_siblings再加个判断吧

for p in soup.findAll('p'): print(p.text,end="") for dt in p.find_next_siblings(): if dt.name == 'li': print("\t",dt.text,end=",") else: break print()

点赞+0

添加回复

洪涛2017-04-17 17:25:26 1 楼

其实可以不用for嵌套的，一个简单的if判断就可以：

soup = BeautifulSoup(html) tags = soup.body for tag in tags: if tag.name == 'p': print('\n'+tag.string.strip(), end = ' ') elif tag.name == 'li' : print(tag.string.strip(), end = ', ') else: continue

结果：