在用python做CSDN的网页爬虫，在爬取网页title时，我一直用的正则表达式(?<=\<title\>).+?(?=\<)在CSDN中用不了了，去CSDN源码一看，title换行显示了所以导致原来的正则表达式无法使用，那么，问题...

re.M 多行模式自己写多行匹配 http://python3-cookbook.readt...

python - 网页title中包含换行，如何用正则表达式提取出来？-PHP中文网问答

问答

python - 网页title中包含换行，如何用正则表达式提取出来？

女神的闺蜜爱上我 2017-06-22 11:51:43 查看 1110

Python

在用python做CSDN的网页爬虫，在爬取网页title时，我一直用的正则表达式(?<=<title>).+?(?=<)在CSDN中用不了了，去CSDN源码一看，title换行显示了

所以导致原来的正则表达式无法使用，那么，问题来了，像这样网页title中包含换行，如何用正则表达式提取出来呢？

PS：

不想用xpath或beautifulsoup的方法，只需要正则哦
CSDN本身有反爬虫机制，我并不是因为这个反爬虫而爬不到title的哦

谢谢大家

参照@caimaoy 的方法，我将正则表达式改为 (?<=<title>)(?:.|n)+?(?=<)后，title完美提取。
再次感谢大家。

Your Answer

提交

2 个回答

re.M 多行模式
自己写多行匹配 http://python3-cookbook.readt...

2017-06-22 11:53:43

提交

表达式那边加个flag吧

tite = '......'
print(re.findall('(?<=\<title\>).+?(?=\<)', title, re.S))

2017-06-22 11:53:43

提交

Hot Questions

function_exists()无法判定自定义函数

2024-04-29 11:01:01

google 浏览器手机版显示的怎么实现

2024-04-23 00:22:19

子窗口操作父窗口，输出没反应

2024-04-19 15:37:47

父窗口没有输出

2024-04-18 23:52:34

关于CSS思维导图的课件在哪？

2024-04-16 10:10:18

显示更多

Hot Tools

vc9-vc14（32+64位）运行库合集（链接在下方）

phpStudy安装所需运行库集合下载

VC9 32位

VC9 32位 phpstudy集成安装环境运行库

php程序员工具箱完整版

程序员工具箱 v1.0 php集成环境

VC11 32位

VC11 32位 phpstudy集成安装环境运行库

SublimeText3汉化版

中文版，非常好用