在用python做CSDN的网页爬虫,在爬取网页title时,我一直用的正则表达式(?<=<title>).+?(?=<)在CSDN中用不了了,去CSDN源码一看,title换行显示了
所以导致原来的正则表达式无法使用,那么,问题来了,像这样网页title中包含换行,如何用正则表达式提取出来呢?
PS:
不想用xpath或beautifulsoup的方法,只需要正则哦
CSDN本身有反爬虫机制,我并不是因为这个反爬虫而爬不到title的哦
谢谢大家
参照@caimaoy 的方法,我将正则表达式改为 (?<=<title>)(?:.|n)+?(?=<)后,title完美提取。
再次感谢大家。
Your Answer
2 个回答
Hot Questions
function_exists()无法判定自定义函数
2024-04-29 11:01:01
google 浏览器 手机版显示的怎么实现
2024-04-23 00:22:19
子窗口操作父窗口,输出没反应
2024-04-19 15:37:47
父窗口没有输出
2024-04-18 23:52:34
关于CSS思维导图的课件在哪?
2024-04-16 10:10:18
Hot Tools
vc9-vc14(32+64位)运行库合集(链接在下方)
phpStudy安装所需运行库集合下载
VC9 32位
VC9 32位 phpstudy集成安装环境运行库
php程序员工具箱完整版
程序员工具箱 v1.0 php集成环境
VC11 32位
VC11 32位 phpstudy集成安装环境运行库
SublimeText3汉化版
中文版,非常好用
热门话题
抖音等级价目表1-75
20337
7
20337
7
wifi显示无ip分配
13531
4
13531
4
虚拟手机号接收验证码
11851
4
11851
4
gmail邮箱登陆入口在哪里
8836
17
8836
17
windows安全中心怎么关闭
8420
7
8420
7
热门文章
2025年加密货币市场十大趋势预测:下一个风口在哪里?
2025-11-07
By DDD
币圈土狗项目如何识别?避免归零币的陷阱与风险预警
2025-11-07
By DDD
解决CSS @media 查询优先级与规则覆盖问题的教程
2025-11-07
By DDD
win10字体安装后在软件里找不到怎么办_win10字体安装与识别方法
2025-11-07
By DDD
铁路12306支付失败订单还在吗_铁路12306支付失败订单处理方法
2025-11-07
By DDD





