• 技术文章 >后端开发 >Python教程

    Python使用urllib2模块抓取HTML页面资源的实例分享

    2016-06-10 15:05:05原创333
    先把要抓取的网络地址列在单独的list文件中

    http://www.jb51.net/article/83440.html
    http://www.jb51.net/article/83437.html
    http://www.jb51.net/article/83430.html
    http://www.jb51.net/article/83449.html
    

    然后我们来看程序操作,代码如下:

    #!/usr/bin/python
    
    import os
    import sys
    import urllib2
    import re
    
    def Cdown_data(fileurl, fpath, dpath):
     if not os.path.exists(dpath):
      os.makedirs(dpath)
     try:
      getfile = urllib2.urlopen(fileurl) 
      data = getfile.read()
      f = open(fpath, 'w')
      f.write(data)
      f.close()
     except:
     print 
    
    with open('u1.list') as lines:
     for line in lines:
      URI = line.strip()
      if '?' and '%' in URI:
       continue
     elif URI.count('//m.sbmmt.com/m/') == 2:
       continue
      elif URI.count('//m.sbmmt.com/m/') > 2:
       #print URI,URI.count('//m.sbmmt.com/m/')
      try:
        dirpath = URI.rpartition('//m.sbmmt.com/m/')[0].split('//')[1]
        #filepath = URI.split('//')[1].split('//m.sbmmt.com/m/')[1]
        filepath = URI.split('//')[1]
       if filepath:
         print URI,filepath,dirpath
         Cdown_data(URI, filepath, dirpath)
       except:
        print URI,'error'
    

    原文网址为:http://www.diyoms.com/python/1806.html
    声明:本文原创发布php中文网,转载请注明出处,感谢您的尊重!如有疑问,请联系admin@php.cn处理
    专题推荐:Python urllib2 HTML
    上一篇:Python实现简单字典树的方法 下一篇:Python实现新浪博客备份的方法
    大前端线上培训班

    相关文章推荐

    • Python中http请求方法库汇总• Django框架中方法的访问和查找• Python中类型关系和继承关系实例详解• 解析Python中的异常处理

    全部评论我要评论

  • 取消发布评论发送
  • 1/1

    PHP中文网