文章专题学习下载问答编程词典手游最近更新

简体中文(ZH-CN) English(EN) 繁体中文(ZH-TW)

首页 > 后端开发 > Python教程 > 正文

零基础写python爬虫之抓取百度贴吧代码分享

WBOY

发布： 2016-06-06 11:20:45

原创

2600 人浏览过

这里就不给大家废话了，直接上代码，代码的解释都在注释里面，看不懂的也别来问我，好好学学基础知识去！

代码如下:

# -*- coding: utf-8 -*-
#---------------------------------------
#   程序：百度贴吧爬虫
#   版本：0.1
#   作者：why
#   日期：2013-05-14
#   语言：Python 2.7
#   操作：输入带分页的地址，去掉最后面的数字，设置一下起始页数和终点页数。
#   功能：下载对应页码内的所有页面并存储为html文件。
#---------------------------------------
import string, urllib2
#定义百度函数
def baidu_tieba(url,begin_page,end_page):
    for i in range(begin_page, end_page+1):
        sName = string.zfill(i,5) + '.html'#自动填充成六位的文件名
        print '正在下载第' + str(i) + '个网页，并将其存储为' + sName + '......'
        f = open(sName,'w+')
        m = urllib2.urlopen(url + str(i)).read()
        f.write(m)
        f.close()
#-------- 在这里输入参数 ------------------
# 这个是山东大学的百度贴吧中某一个帖子的地址
#bdurl = 'http://tieba.baidu.com/p/2296017831?pn='
#iPostBegin = 1
#iPostEnd = 10

bdurl = str(raw_input(u'请输入贴吧的地址，去掉pn=后面的数字：\n'))
begin_page = int(raw_input(u'请输入开始的页数：\n'))
end_page = int(raw_input(u'请输入终点的页数：\n'))
#-------- 在这里输入参数 ------------------
#调用
baidu_tieba(bdurl,begin_page,end_page)

以上就是python抓取百度贴吧的一段简单的代码，非常的实用吧，各位可以自行扩展下。

相关标签：

python 抓取爬虫

来源：php.cn

上一篇：python base64 decode incorrect padding错误解决方法下一篇：零基础写python爬虫之urllib2使用指南

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系[email protected]

作者最新文章

杰克·多尔西称赞比特币（BTC）是'无需许可的自由货币”，并强调其取代美元（USD）的潜力

2024-06-24 00:21:20
加密货币市场下跌 10%，Meme 币飙升

2024-06-24 00:10:59
唐纳德·特朗普加大支持比特币的立场，宣称他将'结束乔·拜登的加密战争”

2024-06-24 00:08:30
加密货币突发新闻 – 周末加密货币报告：比特币和卡尔达诺见解

2024-06-24 00:05:20
愤怒的佩佩叉（APORK）：最值得购买的新 Meme 硬币之一

2024-06-24 00:01:40
比特币（BTC）、以太坊（ETH）和瑞波币（XRP）会卷土重来还是会跌向各自的关键支撑位？

2024-06-24 00:00:40
抖音评论太多怎么找到别人的评论？评论一会看得见一会看不见怎么回事？

2024-06-23 22:40:28
世界币（WLD）价格预测：厄瓜多尔和肯尼亚的扩张会引发价格逆转吗？

2024-06-23 22:33:53
短视频内容策划方向有哪些方面？它的核心原则包括哪些？

2024-06-23 22:07:29
黑客瞄准名人的 Twitter 账户来推广虚假加密货币

2024-06-23 22:05:40

最新问题

如何在 google chrome 中从 HTML 运行 python 脚本？我正在构建一个chrome扩展程序，我想通过单击扩展程序（基本上是HTML）中的按钮来运行我的PC中的python脚本。python脚本使用seleniumweb-driver从网...

来自于 2023-11-02 23:34:24

0

1

400

为什么一些mysql连接在删除+插入后选择mysql数据库的旧数据？我的python/wsgiWeb应用程序中的会话出现问题。2个wsgi守护进程中的每个线程都有一个不同的、持久的mysqldb连接。有时，在删除旧会话并创建新会话后，某些连接仍然会...

来自于 2023-10-30 12:37:20

0

2

229

Python中使用变量执行SQL语句我有以下Python代码：cursor.execute("INSERTINTOtableVALUESvar1,var2,var3,")其中var1是整数，var...

来自于 2023-10-12 15:06:00

0

2

258

理解Python中的三元运算符 [重复] 我目前正在从JavaScript过渡到Python，并且我想知道Python是否有类似于JavaScript的三元运算符。在JavaScript中，我会这样写一个三元操作：leta...

来自于 2023-09-21 18:46:04

0

1

377

如何使用Python匹配带有附加部分的字符串，但如果它们的附加部分不同，则不匹配它们如何匹配带有附加部分的字符串，但如果它们具有不同的附加部分，则不匹配它们？例如，如果我有一个名字列表，并且需要将其与我的数据库中的名字匹配：|MyDataBase|Foreignt...

来自于 2023-09-20 19:02:23

0

1

260

相关专题

更多>

热门推荐

热门教程

更多>

相关教程

热门推荐

最新课程

最新ThinkPHP 5.1全球首发视频教程(60天成就PHP大牛线上培训班课)

1384128
php入门教程之一周学会PHP

4188284
JAVA 初级入门视频教程

2263005
小甲鱼零基础入门学习Python视频教程

486299
PHP 零基础入门教程

816947

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责声明 Sitemap: PHP中文网：公益在线PHP培训，帮助PHP学习者快速成长！