Python에서 크롤러 코드를 예시하는 방법

coldplay.xixi
풀어 주다: 2020-08-11 13:58:52
원래의
9541명이 탐색했습니다.

파이썬 크롤러 코드 예제 사용 방법: 먼저 브라우저 정보를 얻고 urlencode를 사용하여 게시 데이터를 생성한 다음 pymysql을 설치하고 데이터를 MySQL에 저장합니다.

Python에서 크롤러 코드를 예시하는 방법

Python 크롤러 코드 예제에 대한 방법:

1, urllib 및 BeautifulfuSoup

브라우저 정보 가져오기

from urllib import request req = request.urlopen("http://www.baidu.com") print(req.read().decode("utf-8"))
로그인 후 복사

실제 브라우저 시뮬레이션: 사용자 에이전트 헤더 전달

(목적은 다음이 아닙니다. let 서버는 이 브라우저 정보가 포함되어 있지 않으면 오류가 보고될 수 있습니다.)

req = request.Request(url) #此处url为某个网址 req.add_header(key,value) #key即user-Agent,value即浏览器的版本信息 resp = request.urlopen(req) print(resp.read().decode("utf-8"))
로그인 후 복사

관련 학습 권장 사항:python 비디오 튜토리얼

POST

를 사용하여 urllib 라이브러리에서 구문 분석을 가져옵니다.

from urllib import parse
로그인 후 복사

urlencode를 사용하여 게시물 데이터 생성

postData = parse.urlencode([ (key1,val1), (key2,val2), (keyn,valn) ])
로그인 후 복사

post 사용

request.urlopen(req,data=postData.encode("utf-8")) #使用postData发送post请求 resp.status #得到请求状态 resp.reason #得到服务器的类型
로그인 후 복사

전체 코드 예제(Wikipedia 홈페이지 링크 크롤링을 예로 사용)

#-*- coding:utf-8 -*- from bs4 import BeautifulSoup as bs from urllib.request import urlopen import re import ssl #获取维基百科词条信息 ssl._create_default_https_context = ssl._create_unverified_context #全局取消证书验证 #请求URL,并把结果用utf-8编码 req = urlopen("https://en.wikipedia.org/wiki/Main page").read().decode("utf-8") #使用beautifulsoup去解析 soup = bs(req,"html.parser") # print(soup) #获取所有href属性以“/wiki/Special”开头的a标签 urllist = soup.findAll("a",href=re.compile("^/wiki/Special")) for url in urllist: #去除以.jpg或.JPG结尾的链接 if not re.search("\.(jpg|JPG)$",url["href"]): #get_test()输出标签下的所有内容,包括子标签的内容; #string只输出一个内容,若该标签有子标签则输出“none print(url.get_text()+"----->"+url["href"]) # print(url)
로그인 후 복사

2. MySQL에 데이터 저장

pymysql 설치

pip를 통해 설치 :

$ pip install pymysql
로그인 후 복사

또는 설치 파일을 통해:

$ python setup.py install
로그인 후 복사

Using

#引入开发包 import pymysql.cursors #获取数据库链接 connection = pymysql.connect(host="localhost", user = 'root', password = '123456', db ='wikiurl', charset = 'utf8mb4') try: #获取会话指针 with connection.cursor() as cursor #创建sql语句 sql = "insert into `tableName`(`urlname`,`urlhref`) values(%s,%s)" #执行SQL语句 cursor.execute(sql,(url.get_text(),"https://en.wikipedia.org"+url["href"])) #提交 connection.commit() finally: #关闭 connection.close()
로그인 후 복사

3. 크롤러에 대한 주의 사항

Robots 프로토콜(로봇 프로토콜, 크롤러 프로토콜이라고도 함), 전체 이름은 "웹 크롤러 제외 프로토콜"입니다. 웹사이트는 로봇 프로토콜 가져오기를 통해 크롤링할 수 있는 페이지와 가져올 수 없는 페이지를 검색 엔진에 알려줍니다. 일반적으로 https://en.wikipedia.org/robots.txt

Disallow:不允许访问 allow:允许访问
로그인 후 복사

와 같은 메인 페이지 아래 관련 권장 사항:프로그래밍 비디오 코스

위 내용은 Python에서 크롤러 코드를 예시하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
최신 이슈
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿
회사 소개 부인 성명 Sitemap
PHP 중국어 웹사이트:공공복지 온라인 PHP 교육,PHP 학습자의 빠른 성장을 도와주세요!