• 技术文章 >后端开发 >Python教程

    python 怎么获取网页内容

    (*-*)浩(*-*)浩2019-07-09 10:16:50原创11303
    Python用做数据处理还是相当不错的,如果你想要做爬虫,Python是很好的选择,它有很多已经写好的类包,只要调用,即可完成很多复杂的功能。

    1 Pyhton获取网页的内容(也就是源代码)(推荐学习:Python视频教程

    page = urllib2.urlopen(url)   
    contents = page.read()   
    #获得了整个网页的内容也就是源代码  
    print(contents)

    url代表网址,contents代表网址所对应的源代码,urllib2是需要用到的包,以上三句代码就能获得网页的整个源代码

    2 获取网页中想要的内容(先要获得网页源代码,再分析网页源代码,找所对应的标签,然后提取出标签中的内容)

    以豆瓣电影排名为例子

    现在我需要获得当前页面的所有电影的名字,评分,评价人数,链接

    #coding:utf-8  
    ''''' 
    @author: jsjxy 
    '''  
    import urllib2   
    import re   
    from bs4 import BeautifulSoup  
    from distutils.filelist import findall  
    
    page = urllib2.urlopen('http://movie.douban.com/top250?format=text')   
    contents = page.read()   
     #print(contents)  
    soup = BeautifulSoup(contents,"html.parser")  
    print("豆瓣电影TOP250" + "\n" +" 影片名              评分       评价人数     链接 ")    
    for tag in soup.find_all('div', class_='info'):    
       # print tag  
        m_name = tag.find('span', class_='title').get_text()        
        m_rating_score = float(tag.find('span',class_='rating_num').get_text())          
        m_people = tag.find('div',class_="star")  
        m_span = m_people.findAll('span')  
        m_peoplecount = m_span[3].contents[0]  
        m_url=tag.find('a').get('href')  
        print( m_name+"        "  +  str(m_rating_score)   + "           " + m_peoplecount + "    " + m_url )

    控制台输出,你也可以写入文件中

    更多Python相关技术文章,请访问Python教程栏目进行学习!

    以上就是python 怎么获取网页内容的详细内容,更多请关注php中文网其它相关文章!

    声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn核实处理。
    专题推荐:python
    上一篇:python 怎么获取文件名 下一篇:python中的eval函数是什么
    VIP课程(WEB全栈开发)

    相关文章推荐

    • 【腾讯云】年中优惠,「专享618元」优惠券!• python中怎么把列表转成字符串• python语言能做什么工作• python安装怎么改路径• python怎么读写excel文件
    1/1

    PHP中文网