Python - 웹 페이지 제목에 개행 문자가 포함되어 있습니다. 정규식을 사용하여 추출하는 방법은 무엇입니까?
女神的闺蜜爱上我
女神的闺蜜爱上我 2017-06-22 11:51:43
0
2
927

Python을 사용하여 CSDN 웹 크롤러를 수행하고 있습니다. 웹페이지 제목을 크롤링할 때 기존에 사용하던 (?<=<title>).+?(?=<)정규식을 CSDN 소스 코드에 가서 보면 제목이 표시됩니다. 새로운 줄로

원래 정규식을 사용할 수 없습니다. 그러면 이와 같은 웹페이지 제목에 줄바꿈이 포함되어 있는 경우 어떻게 해야 할까요?

PS:

  1. xpath나 beautifulsoup를 사용하고 싶지 않고 정규 표현식만 필요합니다

  2. CSDN 자체에는 크롤러 방지 메커니즘이 있습니다. 제목을 크롤링할 수 없는 것은 이 크롤러 방지 때문이 아닙니다.

모두들 감사합니다

@caimaoy님의 방법에 따라 정규식을 (?<=<title>)(?:.|n)+?(?=<)로 변경했더니 제목이 완벽하게 추출되었습니다.
다시 한번 감사드립니다.

女神的闺蜜爱上我
女神的闺蜜爱上我

모든 응답(2)
仅有的幸福
  1. re.M 멀티라인 모드

  2. 직접 여러 줄 일치 작성 http://python3-cookbook.readt...

曾经蜡笔没有小新

표현식에 flag를 추가하세요

으아악
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿
회사 소개 부인 성명 Sitemap
PHP 중국어 웹사이트:공공복지 온라인 PHP 교육,PHP 학습자의 빠른 성장을 도와주세요!