Python でクローラ コードのサンプルを作成する方法

coldplay.xixi
リリース: 2020-08-11 13:58:52
オリジナル
9541 人が閲覧しました

Python クローラー コード例の方法: まずブラウザー情報を取得し、urlencode を使用して投稿データを生成し、次に pymysql をインストールし、データを MySQL に保存します。

Python でクローラ コードのサンプルを作成する方法

#Python クローラー コードのサンプル メソッド:

#1、urllib および BeautifuluSoup

ブラウザ情報を取得します

from urllib import request req = request.urlopen("http://www.baidu.com") print(req.read().decode("utf-8"))
ログイン後にコピー

実際のブラウザをシミュレートします: user-Agent ヘッダーを保持します

(目的は、サーバーがクローラであると認識しないようにすることです。このブラウザ情報がそうでない場合は、

req = request.Request(url) #此处url为某个网址 req.add_header(key,value) #key即user-Agent,value即浏览器的版本信息 resp = request.urlopen(req) print(resp.read().decode("utf-8"))
ログイン後にコピー

関連学習の推奨事項:

Python ビデオ チュートリアル

POST

を使用して、 urllib ライブラリの下に解析をインポートします

from urllib import parse
ログイン後にコピー

urlencode を使用して投稿データを生成します

postData = parse.urlencode([ (key1,val1), (key2,val2), (keyn,valn) ])
ログイン後にコピー

post を使用します

request.urlopen(req,data=postData.encode("utf-8")) #使用postData发送post请求 resp.status #得到请求状态 resp.reason #得到服务器的类型
ログイン後にコピー

完全なコード例 (例として Wikipedia ホーム ページ リンクをクロールします)

#-*- coding:utf-8 -*- from bs4 import BeautifulSoup as bs from urllib.request import urlopen import re import ssl #获取维基百科词条信息 ssl._create_default_https_context = ssl._create_unverified_context #全局取消证书验证 #请求URL,并把结果用utf-8编码 req = urlopen("https://en.wikipedia.org/wiki/Main page").read().decode("utf-8") #使用beautifulsoup去解析 soup = bs(req,"html.parser") # print(soup) #获取所有href属性以“/wiki/Special”开头的a标签 urllist = soup.findAll("a",href=re.compile("^/wiki/Special")) for url in urllist: #去除以.jpg或.JPG结尾的链接 if not re.search("\.(jpg|JPG)$",url["href"]): #get_test()输出标签下的所有内容,包括子标签的内容; #string只输出一个内容,若该标签有子标签则输出“none print(url.get_text()+"----->"+url["href"]) # print(url)
ログイン後にコピー

2. MySQL にデータを保存します

pymysql

pip 経由でインストールします:

$ pip install pymysql
ログイン後にコピー

またはファイルをインストールします:

$ python setup.py install
ログイン後にコピー

Use

#引入开发包 import pymysql.cursors #获取数据库链接 connection = pymysql.connect(host="localhost", user = 'root', password = '123456', db ='wikiurl', charset = 'utf8mb4') try: #获取会话指针 with connection.cursor() as cursor #创建sql语句 sql = "insert into `tableName`(`urlname`,`urlhref`) values(%s,%s)" #执行SQL语句 cursor.execute(sql,(url.get_text(),"https://en.wikipedia.org"+url["href"])) #提交 connection.commit() finally: #关闭 connection.close()
ログイン後にコピー

3. クローラーに関する注意事項

Robots プロトコル (ロボット プロトコル、クローラー プロトコルとも呼ばれる) の正式名は、 「Web クローラー除外プロトコル」。Web サイトは、ロボット プロトコルを通じて、どのページがクロール可能でどのページがクロールできないかを検索エンジンに伝えます。通常、https://en.wikipedia.org/robots.txt

Disallow:不允许访问 allow:允许访问
ログイン後にコピー

などのメイン ページの下にあります。関連する推奨事項:

プログラミング ビデオ コース

以上がPython でクローラ コードのサンプルを作成する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート
私たちについて 免責事項 Sitemap
PHP中国語ウェブサイト:福祉オンライン PHP トレーニング,PHP 学習者の迅速な成長を支援します!