지역 사회 배우다 도구 라이브러리 여가

한국어

집 > 백엔드 개발 > 파이썬 튜토리얼 > [Python] Web Crawler (6): Baidu Tieba를 위한 간단한 크롤러

[Python] Web Crawler (6): Baidu Tieba를 위한 간단한 크롤러

黄舟

풀어 주다： 2017-01-21 14:07:39

원래의

1514명이 탐색했습니다.

[Python] Web Crawler (6) : Baidu Tieba의 간단한 크롤러

# -*- coding: utf-8 -*-  
#---------------------------------------  
#   程序：百度贴吧爬虫  
#   版本：0.1  
#   作者：why  
#   日期：2013-05-14  
#   语言：Python 2.7  
#   操作：输入带分页的地址，去掉最后面的数字，设置一下起始页数和终点页数。  
#   功能：下载对应页码内的所有页面并存储为html文件。  
#---------------------------------------  
   
import string, urllib2  
   
#定义百度函数  
def baidu_tieba(url,begin_page,end_page):     
    for i in range(begin_page, end_page+1):  
        sName = string.zfill(i,5) + &#39;.html&#39;#自动填充成六位的文件名  
        print &#39;正在下载第&#39; + str(i) + &#39;个网页，并将其存储为&#39; + sName + &#39;......&#39;  
        f = open(sName,&#39;w+&#39;)  
        m = urllib2.urlopen(url + str(i)).read()  
        f.write(m)  
        f.close()  
   
   
#-------- 在这里输入参数 ------------------  
  
# 这个是山东大学的百度贴吧中某一个帖子的地址  
#bdurl = &#39;http://tieba.baidu.com/p/2296017831?pn=&#39;  
#iPostBegin = 1  
#iPostEnd = 10  
  
bdurl = str(raw_input(u&#39;请输入贴吧的地址，去掉pn=后面的数字：\n&#39;))  
begin_page = int(raw_input(u&#39;请输入开始的页数：\n&#39;))  
end_page = int(raw_input(u&#39;请输入终点的页数：\n&#39;))  
#-------- 在这里输入参数 ------------------  
   
  
#调用  
baidu_tieba(bdurl,begin_page,end_page)

로그인 후 복사

위는 [Python] Web Crawler (6) : The Baidu Tieba의 간단한 크롤러 콘텐츠에 대한 자세한 내용은 PHP 중국어 웹사이트(m.sbmmt.com)를 참고하세요!

관련 라벨：

Python，网络爬虫，百度贴吧

원천：php.cn

이전 기사：[Python] Web Crawler (5): urllib2 사용내역 및 웹사이트 크롤링 기법 다음 기사：Python Django는 양식을 사용하여 주석 기능을 구현합니다.

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

저자별 최신 기사

자신만의 PHP 프레임워크를 처음부터 구축하는 방법에 대한 비디오 자료

2023-03-15 16:54:01
PHPMailer가 QQ 메일함을 사용하여 이메일 전송 기능을 완성하는 방법에 대한 분석 예

2023-03-15 12:26:02
PHP의 IMAP에서 이메일을 받는 방법 소개

2023-03-14 18:58:01
PHP에서 배열 중복 제거를 신속하게 구현하는 방법의 예

2023-03-14 11:30:01
HTML에서 태그의 모든 속성 사용 요약

1970-01-01 08:00:00
PHP에 대한 기본 지식 요약(초보자가 시작하는 데 필요함)

2023-03-16 15:20:01
JavaScript에서 typeof 사용 소개

1970-01-01 08:00:00
JavaScript의 verify() 메소드 사용 소개

1970-01-01 08:00:00
HTML5 자리표시자 속성에 대한 자세한 소개

1970-01-01 08:00:00
ReactJS의 양식에서 단일 선택, 다중 선택 및 역선택을 구현하는 방법

1970-01-01 08:00:00

최신 이슈

function_exists()는 사용자 정의 함수를 결정할 수 없습니다. 기능 테스트() { ...

에서 2024-04-29 11:01:01

0

3

2221

Chrome 모바일 버전을 표시하는 방법 안녕하세요 선생님, Chrome을 모바일 버전으로 어떻게 변경하나요?

에서 2024-04-23 00:22:19

0

11

2363

자식 창이 부모 창을 작동하지만 출력이 응답하지 않습니다. 처음 두 문장은 실행 가능하지만 마지막 문장은 구현할 수 없습니다.

에서 2024-04-19 15:37:47

0

1

1976

상위 창에 출력이 없습니다. document.onclick = function(){ window.opener.document.write('나는 자식 창의 출력입니다.');

에서 2024-04-18 23:52:34

0

1

1862

CSS 마인드맵 코스웨어는 어디에 있나요? 코스웨어

에서 2024-04-16 10:10:18

0

0

1932

관련 주제

더>

인기 추천

인기 튜토리얼

더>

관련 튜토리얼

인기 추천

최신 강좌

최신 다운로드

더>

웹 효과

웹사이트 소스 코드

웹사이트 자료

프론트엔드 템플릿