网页爬虫 - Python+Selenium+PhantomJs爬虫,如何取得新打开页面的源码?
高洛峰
高洛峰 2017-04-18 10:21:55
0
2
807

我在做一个python爬虫,使用了selenium库和phantomjs浏览器。我在一个网页中触发了一个click事件打开了一个新的网页,然后我用browser.page_source得到的却是原来那个网页非新打开网页的源码,请问我该如何取得新打开页面的源码呢?

高洛峰
高洛峰

拥有18年软件开发和IT教学经验。曾任多家上市公司技术总监、架构师、项目经理、高级软件工程师等职务。 网络人气名人讲师,...

모든 응답(2)
黄舟

링크가 새 탭을 열면 드라이버 파트너는 기본적으로 현재 창을 계속 사용합니다.

또는 "switch_to_window()" 메서드에 "창 핸들"을 전달할 수 있습니다. 이를 알면 다음과 같이 열려 있는 모든 창을 반복할 수 있습니다.

으아악

예를 들어 브라우저에 탭이 여러 개 있는 경우 window_handles는 이러한 탭에 해당하는 인스턴스 개체를 저장하므로 현재 웹 페이지가 하나만 열려 있으면 새로 열리는 페이지는 window_handles입니다. [1]
전환 후 해당 페이지로 이동하여 소스 코드를 받으세요.

Peter_Zhu

현재 창에서 열리면 새 페이지가 아직 로드되지 않아 그때까지 새 페이지의 URL과 데이터를 얻을 수 없을 수 있습니다. 여기에서 대기를 사용하고 몇 가지 조건을 설정하여 확인할 수 있습니다. 계속 진행하기 전에 새 페이지가 로드된다는 코드는 다음과 같습니다.

으아악
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿