网络爬虫 - python urlopen.read()不完整
阿神
阿神 2017-04-18 09:03:36
0
3
708

这个目的说来有点不忍启齿....不过抱着解决问题的态度,我还是提了这个问题:
这个是原网页
https://movie.douban.com/tag/%E6%83%85%E8%89%B2?start=0&type=T

这个网页有20个电影,但我抓取的结果只有17个,我调试发现的问题是出在刚开始urlopen.read()就没读全整个网页,不知道是不是因为标签使用不合法导致的没读到。
这是测试的代码:

import sys import time import urllib2 import random import requests from bs4 import BeautifulSoup page_num=0 movie_list=[] try_times = 0 url="https://movie.douban.com/tag/%E6%83%85%E8%89%B2?start="+str(page_num*20)+"&type=T" time.sleep(random.uniform(1, 2)) try: source_code = urllib2.urlopen(url).read() plain_text=str(source_code) print plain_text except (urllib2.HTTPError, urllib2.URLError), e: print e soup = BeautifulSoup(plain_text) list_soup=soup.find('p',{'class':['']})

请问该如何解决?并且这个问题的原因到底是什么?
请你们注意,
https://movie.douban.com/tag/%E6%83%85%E8%89%B2?start=0&type=T
这个URL里start也从0开始,第二页是20,第三页是40,以20递增,我自己也数过,每页是有20本电影,但是读取的时候只有17.

阿神
阿神

闭关修行中......

全部回复 (3)
大家讲道理

这个网页就17个电影。
补充:
未登录状态下,结果是17条。
登录状态下,结果是20条。
根据此逻辑,可以通过模拟登录,解决这个问题。

    刘奇

    https://movie.douban.com/tag/%E6%83%85%E8%89%B2?start=0&type=T

    这个网页只有17个电影

      巴扎黑

      用chrome的拷贝xpath功能,拷贝最后一个电影的xpath,是第17个.
      //*[@id="content"]/p/p[1]/p[2]/table[17]

        最新下载
        更多>
        网站特效
        网站源码
        网站素材
        前端模板
        关于我们 免责声明 Sitemap
        PHP中文网:公益在线PHP培训,帮助PHP学习者快速成长!