python2.7 implémente les données de la page Web du robot-Tutoriel Python-php.cn

python2.7 implémente les données de la page Web du robot

不言

Libérer： 2018-06-04 17:57:44

original

3794 Les gens l'ont consulté

Cet article présente principalement en détail l'implémentation de l'exploration des données de page Web dans python2.7. Il a une certaine valeur de référence. Les amis intéressés peuvent s'y référer

Je viens d'apprendre Python récemment et j'ai créé un simple Le robot d'exploration. , sous forme de simple démo, espère aider les débutants comme moi.

Le code utilise un robot réalisé avec python2.7 pour capturer le titre du poste, le nom de l'entreprise, le salaire, l'heure de sortie, etc. sur 51job.

Accédez directement au code. Les commentaires dans le code sont relativement clairs. Si MySQL n'est pas installé, vous devez bloquer le code concerné :

#!/usr/bin/python 
# -*- coding: UTF-8 -*- 
 
from bs4 import BeautifulSoup 
import urllib 
import urllib2 
import codecs 
import re 
import time 
import logging 
import MySQLdb 
 
 
class Jobs(object): 
 
  # 初始化 
  """docstring for Jobs""" 
 
  def __init__(self): 
    super(Jobs, self).__init__() 
     
    logging.basicConfig(level=logging.DEBUG, 
         format=&#39;%(asctime)s %(filename)s[line:%(lineno)d] %(levelname)s %(message)s&#39;) 
    #数据库的操作，没有mysql可以做屏蔽 
    self.db = MySQLdb.connect(&#39;127.0.0.1&#39;,&#39;root&#39;,&#39;rootroot&#39;,&#39;MySQL_Test&#39;,charset=&#39;utf8&#39;) 
    self.cursor = self.db.cursor() 
 
    #log日志的显示 
    self.logger = logging.getLogger("sjk") 
 
    self.logger.setLevel(level=logging.DEBUG) 
 
    formatter = logging.Formatter( 
      &#39;%(asctime)s - %(name)s - %(levelname)s - %(message)s&#39;) 
    handler = logging.FileHandler(&#39;log.txt&#39;) 
    handler.setFormatter(formatter) 
    handler.setLevel(logging.DEBUG) 
    self.logger.addHandler(handler) 
 
    self.logger.info(&#39;初始化完成&#39;) 
 
  # 模拟请求数据 
  def jobshtml(self, key, page=&#39;1&#39;): 
    try: 
      self.logger.info(&#39;开始请求第&#39; + page + &#39;页&#39;) 
      #网页url 
      searchurl = "https://search.51job.com/list/040000,000000,0000,00,9,99,{key},2,{page}.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=" 
 
      user_agent = &#39;Mozilla/5.0 (Macintosh; Intel Mac OS X 10.13; rv:59.0) Gecko/20100101 Firefox/59.0&#39; 
      #设置请求头 
      header = {&#39;User-Agent&#39;: user_agent, &#39;Host&#39;: &#39;search.51job.com&#39;, 
           &#39;Referer&#39;: &#39;https://www.51job.com/&#39;} 
      #拼接url 
      finalUrl = searchurl.format(key=key, page=page) 
       
      request = urllib2.Request(finalUrl, headers=header) 
 
      response = urllib2.urlopen(request) 
      #等待网页加载完成 
      time.sleep(3) 
      #gbk格式解码 
      info = response.read().decode(&#39;gbk&#39;) 
 
      self.logger.info(&#39;请求网页网页&#39;) 
 
      self.decodeHtml(info=info, key=key, page=page) 
 
    except urllib2.HTTPError as e: 
      print e.reason 
 
  # 解析网页数据 
  def decodeHtml(self, info, key, page): 
    self.logger.info(&#39;开始解析网页数据&#39;) 
    #BeautifulSoup 解析网页 
    soup = BeautifulSoup(info, &#39;html.parser&#39;) 
    #找到class = t1 t2 t3 t4 t5 的标签数据 
    ps = soup.find_all(attrs={"class": re.compile(r&#39;^t[1-5].*&#39;)}) 
    #打开txt文件 a+ 代表追加 
    f = codecs.open(key + &#39;.txt&#39;, &#39;a+&#39;, &#39;UTF-8&#39;) 
    #清除之前的数据信息 
    f.truncate() 
 
    f.write(&#39;\n------------&#39; + page + &#39;--------------\n&#39;) 
 
    count = 1 
 
    arr = [] 
    #做一些字符串的处理，形成数据格式  iOS开发工程师 有限公司 深圳-南山区 0.9-1.6万/月 05-16 
    for pi in ps: 
      spe = " " 
      finalstr = pi.getText().strip() 
      arr.append(finalstr) 
      if count % 5 == 0: 
        #每一条数据插入数据库，如果没有安装mysql 可以将当前行注释掉 
        self.connectMySQL(arr=arr) 
        arr = [] 
        spe = "\n" 
      writestr = finalstr + spe 
      count += 1 
      f.write(writestr) 
    f.close() 
     
    self.logger.info(&#39;解析完成&#39;) 
 
#数据库操作 没有安装mysql 可以屏蔽掉 
  def connectMySQL(self,arr): 
    work=arr[0] 
    company=arr[1] 
    place=arr[2] 
    salary=arr[3] 
    time=arr[4] 
 
    query = "select * from Jobs_tab where \ 
    company_name=&#39;%s&#39; and work_name=&#39;%s&#39; and work_place=&#39;%s&#39; \ 
    and salary=&#39;%s&#39; and time=&#39;%s&#39;" %(company,work,place,salary,time) 
    self.cursor.execute(query) 
 
    queryresult = self.cursor.fetchall() 
    #数据库中不存在就插入数据 存在就可以更新数据 不过我这边没有写 
    if len(queryresult) > 0: 
      sql = "insert into Jobs_tab(work_name,company_name,work_place,salary\ 
          ,time) values(&#39;%s&#39;,&#39;%s&#39;,&#39;%s&#39;,&#39;%s&#39;,&#39;%s&#39;)" %(work,company,place,salary,time) 
       
      try: 
        self.cursor.execute(sql) 
        self.db.commit() 
         
      except Exception as e: 
        self.logger.info(&#39;写入数据库失败&#39;) 
     
 
  #模拟登陆 
  # def login(self): 
  #   data = {&#39;action&#39;:&#39;save&#39;,&#39;isread&#39;:&#39;on&#39;,&#39;loginname&#39;:&#39;18086514327&#39;,&#39;password&#39;:&#39;kui4131sjk&#39;} 
 
 
  # 开始抓取 主函数 
  def run(self, key): 
 
    # 只要前5页的数据 key代表搜索工做类型 这边我是用的ios page是页数 
    for x in xrange(1, 6): 
      self.jobshtml(key=key, page=str(x)) 
 
    self.logger.info(&#39;写入数据库完成&#39;) 
 
    self.db.close() 
 
if __name__ == &#39;__main__&#39;: 
 
  Jobs().run(key=&#39;iOS&#39;)

Copier après la connexion

Attrapez-le comme ça Le format d'obtention des données de page Web est le suivant :