masyarakat Belajar Perpustakaan Alatan Masa lapang

Melayu

Rumah > pembangunan bahagian belakang > Tutorial Python > [Python]网络爬虫（六）：一个简单的百度贴吧的小爬虫

[Python]网络爬虫（六）：一个简单的百度贴吧的小爬虫

黄舟

Lepaskan： 2017-01-21 14:07:39

asal

1515 orang telah melayarinya

[Python]网络爬虫（六）：一个简单的百度贴吧的小爬虫

# -*- coding: utf-8 -*-  
#---------------------------------------  
#   程序：百度贴吧爬虫  
#   版本：0.1  
#   作者：why  
#   日期：2013-05-14  
#   语言：Python 2.7  
#   操作：输入带分页的地址，去掉最后面的数字，设置一下起始页数和终点页数。  
#   功能：下载对应页码内的所有页面并存储为html文件。  
#---------------------------------------  
   
import string, urllib2  
   
#定义百度函数  
def baidu_tieba(url,begin_page,end_page):     
    for i in range(begin_page, end_page+1):  
        sName = string.zfill(i,5) + &#39;.html&#39;#自动填充成六位的文件名  
        print &#39;正在下载第&#39; + str(i) + &#39;个网页，并将其存储为&#39; + sName + &#39;......&#39;  
        f = open(sName,&#39;w+&#39;)  
        m = urllib2.urlopen(url + str(i)).read()  
        f.write(m)  
        f.close()  
   
   
#-------- 在这里输入参数 ------------------  
  
# 这个是山东大学的百度贴吧中某一个帖子的地址  
#bdurl = &#39;http://tieba.baidu.com/p/2296017831?pn=&#39;  
#iPostBegin = 1  
#iPostEnd = 10  
  
bdurl = str(raw_input(u&#39;请输入贴吧的地址，去掉pn=后面的数字：\n&#39;))  
begin_page = int(raw_input(u&#39;请输入开始的页数：\n&#39;))  
end_page = int(raw_input(u&#39;请输入终点的页数：\n&#39;))  
#-------- 在这里输入参数 ------------------  
   
  
#调用  
baidu_tieba(bdurl,begin_page,end_page)

Salin selepas log masuk

以上就是 [Python]网络爬虫（六）：一个简单的百度贴吧的小爬虫的内容，更多相关内容请关注PHP中文网（m.sbmmt.com）！

Label berkaitan：

Python，网络爬虫，百度贴吧

sumber：php.cn

Artikel sebelumnya： [Python]网络爬虫（五）：urllib2的使用细节与抓站技巧 Artikel seterusnya：Python Django使用forms来实现评论功能

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel terbaru oleh pengarang

从零开始打造自己的PHP框架的视频资料

2023-03-15 16:54:01
PHPMailer如何利用QQ邮箱完成邮件发送功能的实例分析

2023-03-15 12:26:02
php中关于IMAP如何收取邮件的方法介绍

2023-03-14 18:58:01
php如何快速实现数组去重的实例

2023-03-14 11:30:01
html中关于<a>标签的全部属性的使用总结

1970-01-01 08:00:00
php基础知识总结（新手入门必备）

2023-03-16 15:20:01
JavaScript中typeof的使用方法介绍

1970-01-01 08:00:00
JavaScript中confirm()方法的使用介绍

1970-01-01 08:00:00
HTML5 Placeholder属性的详情介绍

1970-01-01 08:00:00
ReactJS中表单的单选多选与反选的实现方法

1970-01-01 08:00:00

Isu terkini

function_exists() tidak boleh menentukan fungsi tersuai Ujian fungsi () {return true;} jika (function_exists ('test')) {echo "test is functio...

daripada 2024-04-29 11:01:01

0

3

2221

Bagaimana untuk memaparkan versi mudah alih Google Chrome Hello cikgu, bagaimana saya boleh menukar Google Chrome kepada versi mudah alih?

daripada 2024-04-23 00:22:19

0

11

2364

Tetingkap anak mengendalikan tetingkap induk, tetapi output tidak bertindak balas. Dua ayat pertama boleh dilaksanakan, tetapi ayat terakhir tidak boleh dilaksanakan.

daripada 2024-04-19 15:37:47

0

1

1976

Tiada output dalam tetingkap induk document.onclick = function(){ window.opener.document.write('Saya adalah output tetingkap ...

daripada 2024-04-18 23:52:34

0

1

1862

Di manakah perisian kursus tentang pemetaan minda CSS? Perisian kursus

daripada 2024-04-16 10:10:18

0

0

1933

Topik-topik yang berkaitan

Lagi>

Cadangan popular

Tutorial Popular

Lagi>

Tutorial berkaitan

Cadangan popular

Kursus terkini

Muat turun terkini

Lagi>

kesan web

Kod sumber laman web

Bahan laman web

Templat hujung hadapan