• 技术文章 >web前端 >html教程

    Python爬虫如何处理html中的延迟加载部分(delayload_url)_html/css_WEB-ITnose

    2016-06-24 11:47:22原创1634

    下载链接“http://s.1688.com/selloffer/industry_offer_search.htm?mixWholesale=true&industryFlag=food&categoryId=1032913&from=industrySearch&n=y&filt=y#_fb_top”的源码,结果只包含了页面的一部分内容;该页面共60个商品,但源码中只能解析出20个,且无法找到翻页链接;



    应该是以上一段源码实现的延迟加载,在该页面滑轮下拉到底时,才载入新的部分;求教如何解析该页面,获取完整的页面源码,解析全部60个商品和翻页链接。


    回复讨论(解决方案)

    审核元素找到数据源链接直接用那个链接获取数据

    额。。。不知道现在回答还来不来得及!这个可以通过火狐捕捉到延迟加载的url地址,然后就可以找到规律了。我刚好也在爬1688的数据也遇到了延迟加载这个问题,然后通过火狐浏览器捕捉url,发现其实只要把sw-delayload-url这个div里面的url取出来然后在最后面加上&callback=任意字符串,然后每次改变&startIndex=这个就可以了(依次为startIndex=20,startIndex=40),这样就会返回一个json的数据
    我试过你贴出来的那个url不知道为什么没数据返回,可能是商品下架了。。。你可以按我说的试试
    ,如果你已经解决了并有更好的方法的话希望能交流一下,谢谢

    声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn核实处理。
    上一篇:html表格_html/css_WEB-ITnose 下一篇:自己动手写 PHP MVC 框架(40节精讲/巨细/新人进阶必看)

    相关文章推荐

    • 七个你可能不了解的CSS单位_html/css_WEB-ITnose• 绝对定位和浮动的问题,求大神帮忙解决_html/css_WEB-ITnose• button与submit_html/css_WEB-ITnose• 前端要给力之:代码可以有多烂?_html/css_WEB-ITnose• 收藏 检测有内容则显示,无内容则注释的代码_html/css_WEB-ITnose
    1/1

    PHP中文网