Python에서 크롤러 코드를 예시하는 방법-파이썬 튜토리얼-php.cn

파이썬 크롤러 코드 예제 사용 방법: 먼저 브라우저 정보를 얻고 urlencode를 사용하여 게시 데이터를 생성한 다음 pymysql을 설치하고 데이터를 MySQL에 저장합니다.

Python에서 크롤러 코드를 예시하는 방법

Python 크롤러 코드 예제에 대한 방법:

1, urllib 및 BeautifulfuSoup

브라우저 정보 가져오기

from urllib import request req = request.urlopen("http://www.baidu.com") print(req.read().decode("utf-8"))

로그인 후 복사

실제 브라우저 시뮬레이션: 사용자 에이전트 헤더 전달

(목적은 다음이 아닙니다. let 서버는 이 브라우저 정보가 포함되어 있지 않으면 오류가 보고될 수 있습니다.)

req = request.Request(url) #此处url为某个网址 req.add_header(key,value) #key即user-Agent，value即浏览器的版本信息 resp = request.urlopen(req) print(resp.read().decode("utf-8"))

로그인 후 복사

관련 학습 권장 사항:python 비디오 튜토리얼

POST

를 사용하여 urllib 라이브러리에서 구문 분석을 가져옵니다.

from urllib import parse

로그인 후 복사

urlencode를 사용하여 게시물 데이터 생성

postData = parse.urlencode([ (key1,val1), (key2,val2), (keyn,valn) ])

로그인 후 복사

post 사용

request.urlopen(req,data=postData.encode("utf-8")) #使用postData发送post请求 resp.status #得到请求状态 resp.reason #得到服务器的类型

로그인 후 복사

전체 코드 예제(Wikipedia 홈페이지 링크 크롤링을 예로 사용)

#-*- coding:utf-8 -*- from bs4 import BeautifulSoup as bs from urllib.request import urlopen import re import ssl #获取维基百科词条信息 ssl._create_default_https_context = ssl._create_unverified_context #全局取消证书验证 #请求URL，并把结果用utf-8编码 req = urlopen("https://en.wikipedia.org/wiki/Main page").read().decode("utf-8") #使用beautifulsoup去解析 soup = bs(req,"html.parser") # print(soup) #获取所有href属性以“/wiki/Special”开头的a标签 urllist = soup.findAll("a",href=re.compile("^/wiki/Special")) for url in urllist: #去除以.jpg或.JPG结尾的链接 if not re.search("\.(jpg|JPG)$",url["href"]): #get_test()输出标签下的所有内容，包括子标签的内容； #string只输出一个内容，若该标签有子标签则输出“none print(url.get_text()+"----->"+url["href"]) # print(url)

로그인 후 복사

2. MySQL에 데이터 저장

pymysql 설치

pip를 통해 설치 :

$ pip install pymysql

로그인 후 복사

또는 설치 파일을 통해:

$ python setup.py install

로그인 후 복사

Using

#引入开发包 import pymysql.cursors #获取数据库链接 connection = pymysql.connect(host="localhost", user = 'root', password = '123456', db ='wikiurl', charset = 'utf8mb4') try: #获取会话指针 with connection.cursor() as cursor #创建sql语句 sql = "insert into `tableName`(`urlname`,`urlhref`) values(%s,%s)" #执行SQL语句 cursor.execute(sql,(url.get_text(),"https://en.wikipedia.org"+url["href"])) #提交 connection.commit() finally: #关闭 connection.close()

로그인 후 복사

3. 크롤러에 대한 주의 사항

Robots 프로토콜(로봇 프로토콜, 크롤러 프로토콜이라고도 함), 전체 이름은 "웹 크롤러 제외 프로토콜"입니다. 웹사이트는 로봇 프로토콜 가져오기를 통해 크롤링할 수 있는 페이지와 가져올 수 없는 페이지를 검색 엔진에 알려줍니다. 일반적으로 https://en.wikipedia.org/robots.txt

Disallow：不允许访问 allow：允许访问

로그인 후 복사

와 같은 메인 페이지 아래 관련 권장 사항:프로그래밍 비디오 코스

위 내용은 Python에서 크롤러 코드를 예시하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

Php8, 나도 갈게

30분 안에 웹사이트 레이아웃 배우기

Shangguan Oracle 초보자부터 능숙한 비디오 튜토리얼까지

UNI-APP 코드의 첫 번째 줄

처음부터 앱 실행까지 Flutter

Lian 형제 새 Linux 비디오 튜토리얼

AXURE 9 비디오 튜토리얼(제품 관리자 대화형 제품 디자인 UI에 적합)

Zero 기본 숙련도 PS 비디오 튜토리얼

시작하는 데 도움이 되는 16일 UI 비디오 튜토리얼

PS 기술 및 슬라이싱 기술 비디오 튜토리얼

Alibaba Cloud 환경 구축 및 프로젝트 출시 비디오 튜토리얼

컴퓨터 네트워크 개요 - 프로그래머가 마스터해야 하는 기본 지식

프로그래머를 위한 필수 튜토리얼 - HTTP 프로토콜 설명

웹소켓 비디오 튜토리얼

Python에서 크롤러 코드를 예시하는 방법