我想爬电影票房的数据,网站是http://www.cbooo.cn/movieweek,我要爬网页最下面的【票房日期:2016-11-14至2016-11-20 单周票房:57271万 单周场次:1463995场 单周人次:1781万】这些数据,代码如下:
from bs4 import BeautifulSoup
import urllib.request
z = input("请输入网址:")
a = urllib.request.urlopen(z).read()
b = BeautifulSoup(a,"html.parser")
c = b.select("#content > p.alldate")
for i in c:
print(i.get_text())
输出结果是
票房日期:
单月票房:万
单月场次:万场
单月人次:万
关键的数据没有啊,这是怎么回事呢,我最想要的是那些数据,怎么弄也没有,跪求解决办法
谢谢
谢谢
谢谢
因為你需要的資料是有ajax動態產生的,在html源碼中是找不到的,所以需要能夠動態載入js工具,你可以用這個
selenium+PhantomJS
來執行js的內容,不過這個相對來說比較慢。不過針對你需要抓取的網站,用遊覽器抓包發現 發現ajax請求路徑是
所以你可以直接發起請求,
不需要用上面的phantomJS。發現返回的json字串中有你所需要的數據,你需要的數據在最後的data2。