在用python做CSDN的網頁爬蟲,在爬取網頁title時,我一直用的正規表示式(?<=\<title\>). ?(?=\< )
在CSDN中用不了了,去CSDN源碼一看,title換行顯示了
所以導致原來的正規表示式無法使用,那麼,問題來了,像這樣網頁title中包含換行,如何用正規表示式提取出來呢?
PS:
不想用xpath或beautifulsoup的方法,只需要正規哦
#CSDN本身有反爬蟲機制,我並不是因為這隻反爬蟲而爬不到title的哦
謝謝大家
參考@caimaoy 的方法,我將正規表示式改為(?<=\<title\>)(?:.|\n) ?(?=\<)
後,title完美提取。
再次感謝大家。
re.M 多行模式
自己寫多行配對 http://python3-cookbook.readt...
表達式那邊加個
flag
吧