登录  /  注册
python爬虫beta版之抓取知乎单页面
高洛峰
发布: 2016-12-02 16:51:45
原创
1214人浏览过

鉴于之前用python写爬虫,帮运营人员抓取过京东的商品品牌以及分类,这次也是用python来搞简单的抓取单页面版,后期再补充哈。

#-*- coding: UTF-8 -*- 
import requests
import sys
from bs4 import BeautifulSoup

#------知乎答案收集----------

#获取网页body里的内容
def get_content(url , data = None):
    header={
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
        'Accept-Encoding': 'gzip, deflate, sdch',
        'Accept-Language': 'zh-CN,zh;q=0.8',
        'Connection': 'keep-alive',
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.235'
    }

    req = requests.get(url, headers=header)
    req.encoding = 'utf-8'
    bs = BeautifulSoup(req.text, "html.parser")  # 创建BeautifulSoup对象
    body = bs.body # 获取body部分
    return body

#获取问题标题
def get_title(html_text):
     data = html_text.find('span', {'class': 'zm-editable-content'})
     return data.string.encode('utf-8')

#获取问题内容
def get_question_content(html_text):
     data = html_text.find('div', {'class': 'zm-editable-content'})
     if data.string is None:
         out = '';
         for datastring in data.strings:
             out = out + datastring.encode('utf-8')
         print '内容:\n' + out
     else:
         print '内容:\n' + data.string.encode('utf-8')

#获取点赞数
def get_answer_agree(body):
    agree = body.find('span',{'class': 'count'})
    print '点赞数:' + agree.string.encode('utf-8') + '\n'

#获取答案
def get_response(html_text):
     response = html_text.find_all('div', {'class': 'zh-summary summary clearfix'})
     for index in range(len(response)):
         #获取标签
         answerhref = response[index].find('a', {'class': 'toggle-expand'})
         if not(answerhref['href'].startswith('javascript')):
             url = 'http://www.zhihu.com/' + answerhref['href']
             print url
             body = get_content(url)
             get_answer_agree(body)
             answer = body.find('div', {'class': 'zm-editable-content clearfix'})
             if answer.string is None:
                 out = '';
                 for datastring in answer.strings:
                     out = out + '\n' + datastring.encode('utf-8')
                 print out
             else:
                 print answer.string.encode('utf-8')


html_text = get_content('https://www.zhihu.com/question/43879769')
title = get_title(html_text)
print "标题:\n" + title + '\n'
questiondata = get_question_content(html_text)
print '\n'
data = get_response(html_text)
登录后复制

输出结果:

22.png

相关标签:
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 技术文章
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2023 //m.sbmmt.com/ All Rights Reserved | 苏州跃动光标网络科技有限公司 | 苏ICP备2020058653号-1

 | 本站CDN由 数掘科技 提供

登录PHP中文网,和优秀的人一起学习!
全站2000+教程免费学