python如何範例爬蟲程式碼-Python教學-PHP中文網

python如何範例爬蟲程式碼

coldplay.xixi

發布： 2020-08-11 13:58:52

原創

9540 人瀏覽過

python爬蟲程式碼範例的方法：首先取得瀏覽器信息，並使用urlencode產生post資料；然後安裝pymysql，並儲存資料到MySQL即可。

python如何範例爬蟲程式碼

python爬蟲程式碼範例的方法：

1、urllib和BeautifuSoup

#取得瀏覽器資訊

from urllib import request
req = request.urlopen("http://www.baidu.com")
print(req.read().decode("utf-8"))

登入後複製

模擬真實瀏覽器：攜帶user-Agent頭

(目的是不讓伺服器認為是爬蟲，若不帶此瀏覽器訊息，則可能會報錯)

req = request.Request(url) #此处url为某个网址
req.add_header(key,value)  #key即user-Agent，value即浏览器的版本信息
resp = request.urlopen(req)
print(resp.read().decode("utf-8"))

登入後複製

相關學習推薦：python影片教學

使用POST

匯入urllib庫下面的parse

from urllib import parse

登入後複製

使用urlencode產生post資料

postData = parse.urlencode([
    (key1,val1),
    (key2,val2),
    (keyn,valn)
])

登入後複製

使用post

request.urlopen(req,data=postData.encode("utf-8")) #使用postData发送post请求
resp.status  #得到请求状态
resp.reason #得到服务器的类型

登入後複製

完整程式碼範例（以爬取維基百科首頁連結為例）

#-*- coding:utf-8 -*-
from bs4 import BeautifulSoup as bs
from urllib.request import urlopen 
import re
import ssl
#获取维基百科词条信息
ssl._create_default_https_context = ssl._create_unverified_context #全局取消证书验证
#请求URL，并把结果用utf-8编码
req = urlopen("https://en.wikipedia.org/wiki/Main page").read().decode("utf-8")
#使用beautifulsoup去解析
soup = bs(req,"html.parser")
# print(soup)
#获取所有href属性以“/wiki/Special”开头的a标签
urllist = soup.findAll("a",href=re.compile("^/wiki/Special"))
for url in urllist:
#去除以.jpg或.JPG结尾的链接
if not re.search("\.(jpg|JPG)$",url["href"]):
#get_test()输出标签下的所有内容，包括子标签的内容；
#string只输出一个内容，若该标签有子标签则输出“none
print(url.get_text()+"----->"+url["href"])
# print(url)

登入後複製

2、儲存資料到MySQL

安裝pymysql

透過pip安裝：

$ pip install pymysql

登入後複製

或透過安裝檔：

$ python setup.py install

登入後複製

使用

#引入开发包
import pymysql.cursors
#获取数据库链接
connection = pymysql.connect(host="localhost",
user = &#39;root&#39;,
password = &#39;123456&#39;,
db =&#39;wikiurl&#39;,
charset = &#39;utf8mb4&#39;)
try:
#获取会话指针
with connection.cursor() as cursor
#创建sql语句
sql = "insert into `tableName`(`urlname`,`urlhref`) values(%s,%s)"
#执行SQL语句
cursor.execute(sql,(url.get_text(),"https://en.wikipedia.org"+url["href"]))
#提交
connection.commit()
finally:
#关闭
connection.close()

登入後複製

3、爬蟲注意事項

Robots協議（機器人協議，也稱為爬蟲協議）全名為“網路爬蟲排除協議”，網站透過Robots協議告訴搜尋引擎哪些頁面可以抓取，哪些頁面不可以抓取。一般在主頁下，如https://en.wikipedia.org/robots.txt

Disallow：不允许访问
allow：允许访问

登入後複製

#相關推薦：程式設計影片課程

以上是python如何範例爬蟲程式碼的詳細內容。更多資訊請關注PHP中文網其他相關文章！

php8，我來也

30分鐘學會網站佈局

尚觀Oracle入門到精通視頻教程

你的第一行UNI-APP程式碼

Flutter 從頭到應用程式啟動

兄弟連新版Linux視頻教程

AXURE 9影片教學（適用於產品經理互動產品設計UI）

零基礎PS影片教學

16天帶你入門UI視頻教程

PS技巧和切片技巧影片教學

阿裡雲環境搭建以及項目上線視頻教程

電腦網路概述－程式設計師必須掌握的基礎知識

程式設計師必備教學——HTTP協定講解

Websocket影片教學

python如何範例爬蟲程式碼