Beispieldarstellung der Verwendung von Python Selenium zum Crawlen von Inhalten und Speichern der MySQL-Datenbank-Python-Tutorial-php.cn

In diesem Artikel wird hauptsächlich der Implementierungscode von Python Selenium-Crawling-Inhalten und deren Speicherung in der MySQL-Datenbank vorgestellt. Freunde, die ihn benötigen, können darauf verweisen.

Ich habe ihn weitergegeben früher In einem Artikel wird beschrieben, wie CSDN-Blogzusammenfassungen und andere Informationen gecrawlt werden. Nachdem der Selenium-Crawler zum Crawlen von Daten verwendet wurde, müssen diese normalerweise im TXT-Text gespeichert werden. Dies ist jedoch schwierig für die Datenverarbeitung und Datenanalyse. In diesem Artikel geht es hauptsächlich darum, meine persönlichen Blog-Informationen durch Selenium zu crawlen und sie dann in der Datenbank MySQL zu speichern, um die Daten zu analysieren, z. B. um zu analysieren, in welchem Zeitraum es mehr Blogs gibt, und um die Kombination mit WordCloud zu analysieren, um das Thema des Artikels zu analysieren. Artikelleseranking usw. .
Dies ist ein grundlegender Artikel. Ich hoffe, dass er für Sie hilfreich ist. Wenn der Artikel Fehler oder Mängel aufweist, verzeihen Sie mir bitte. Im nächsten Artikel wird der Prozess der Datenanalyse kurz erläutert.

1. Crawling-Ergebnisse
Die gecrawlte Adresse lautet: http://blog.csdn.net/Eastmount

使用python Selenium爬取内容并存储MySQL数据库的实例图解

Die Ergebnisse des Crawlens und Speicherns in der MySQL-Datenbank sind wie folgt:

使用python Selenium爬取内容并存储MySQL数据库的实例图解

Der laufende Prozess ist wie gezeigt Unten wird angezeigt:

使用python Selenium爬取内容并存储MySQL数据库的实例图解

2. Vollständige Codeanalyse

Der vollständige Code lautet wie folgt:

# coding=utf-8 
 
from selenium import webdriver 
from selenium.webdriver.common.keys import Keys 
import selenium.webdriver.support.ui as ui   
import re
import time
import os
import codecs
import MySQLdb
 
#打开Firefox浏览器 设定等待加载时间 
driver = webdriver.Firefox()
wait = ui.WebDriverWait(driver,10) 

#获取每个博主的博客页面低端总页码  
def getPage():
 print &#39;getPage&#39;
 number = 0  
 texts = driver.find_element_by_xpath("//p[@id=&#39;papelist&#39;]").text  
 print &#39;页码&#39;, texts  
 m = re.findall(r&#39;(\w*[0-9]+)\w*&#39;,texts) #正则表达式寻找数字  
 print &#39;页数：&#39; + str(m[1])  
 return int(m[1]) 
 
#主函数 
def main():
 #获取txt文件总行数
 count = len(open("Blog_URL.txt",&#39;rU&#39;).readlines())
 print count
 n = 0
 urlfile = open("Blog_URL.txt",&#39;r&#39;)

 #循环获取每个博主的文章摘信息 
 while n < count: #这里爬取2个人博客信息，正常情况count个博主信息
  url = urlfile.readline()
  url = url.strip("\n")
  print url
  driver.get(url)
  #获取总页码
  allPage = getPage()
  print u&#39;页码总数为:&#39;, allPage
  time.sleep(2)

  #数据库操作结合
  try:
   conn=MySQLdb.connect(host=&#39;localhost&#39;,user=&#39;root&#39;,
         passwd=&#39;123456&#39;,port=3306, db=&#39;test01&#39;)
   cur=conn.cursor() #数据库游标

   #报错:UnicodeEncodeError: &#39;latin-1&#39; codec can&#39;t encode character
   conn.set_character_set(&#39;utf8&#39;)
   cur.execute(&#39;SET NAMES utf8;&#39;)
   cur.execute(&#39;SET CHARACTER SET utf8;&#39;)
   cur.execute(&#39;SET character_set_connection=utf8;&#39;)
   
   #具体内容处理
   m = 1 #第1页
   while m <= allPage:
    ur = url + "/article/list/" + str(m)
    print ur
    driver.get(ur)
    
    #标题
    article_title = driver.find_elements_by_xpath("//p[@class=&#39;article_title&#39;]")
    for title in article_title:
     #print url
     con = title.text
     con = con.strip("\n")
     #print con + &#39;\n&#39;
    
    #摘要
    article_description = driver.find_elements_by_xpath("//p[@class=&#39;article_description&#39;]")
    for description in article_description:
     con = description.text
     con = con.strip("\n")
     #print con + &#39;\n&#39;

    #信息
    article_manage = driver.find_elements_by_xpath("//p[@class=&#39;article_manage&#39;]")
    for manage in article_manage:
     con = manage.text
     con = con.strip("\n")
     #print con + &#39;\n&#39;

    num = 0
    print u&#39;长度&#39;, len(article_title)
    while num < len(article_title):
     #插入数据 8个值
     sql = &#39;&#39;&#39;insert into csdn_blog
        (URL,Author,Artitle,Description,Manage,FBTime,YDNum,PLNum)
       values(%s, %s, %s, %s, %s, %s, %s, %s)&#39;&#39;&#39;
     Artitle = article_title[num].text
     Description = article_description[num].text
     Manage = article_manage[num].text
     print Artitle
     print Description
     print Manage
     #获取作者
     Author = url.split(&#39;/&#39;)[-1]
     #获取阅读数和评论数
     mode = re.compile(r&#39;\d+\.?\d*&#39;)
     YDNum = mode.findall(Manage)[-2]
     PLNum = mode.findall(Manage)[-1]
     print YDNum
     print PLNum
     #获取发布时间
     end = Manage.find(u&#39; 阅读&#39;)
     FBTime = Manage[:end]
     cur.execute(sql, (url, Author, Artitle, Description, Manage,FBTime,YDNum,PLNum)) 
     
     num = num + 1
    else:
     print u&#39;数据库插入成功&#39;    
    m = m + 1
     
  
  #异常处理
  except MySQLdb.Error,e:
   print "Mysql Error %d: %s" % (e.args[0], e.args[1])
  finally:
   cur.close() 
   conn.commit() 
   conn.close()
  
  n = n + 1
    
 else:
  urlfile.close()
  print &#39;Load Over&#39;
   
main()

Nach dem Login kopieren

Platzieren Sie die Blog-Adress-URL des Benutzers, der gecrawlt werden muss, in der Datei Blog_Url.txt, wie in der Abbildung unten gezeigt. Beachten Sie, dass der Autor hier einen URL-Code zum Crawlen aller CSDN-Experten vorab geschrieben hat, der hier weggelassen wurde, um auf die Ressourcen anderer Personen zuzugreifen und das Lesevolumen zu erhöhen.

使用python Selenium爬取内容并存储MySQL数据库的实例图解

Der Analyseprozess ist wie folgt.
1. Ermitteln Sie die Gesamtseitenzahl des Bloggers.
Lesen Sie zunächst die Adresse des Bloggers aus Blog_Url.txt und rufen Sie dann die Gesamtseitenzahl ab. Der Code lautet wie folgt:

#获取每个博主的博客页面低端总页码  
def getPage():
 print &#39;getPage&#39;
 number = 0  
 texts = driver.find_element_by_xpath("//p[@id=&#39;papelist&#39;]").text  
 print &#39;页码&#39;, texts  
 m = re.findall(r&#39;(\w*[0-9]+)\w*&#39;,texts) #正则表达式寻找数字  
 print &#39;页数：&#39; + str(m[1])  
 return int(m[1])

Nach dem Login kopieren

Um beispielsweise die Gesamtseitenzahl von 17 Seiten zu erhalten, wie unten gezeigt:

使用python Selenium爬取内容并存储MySQL数据库的实例图解

2. DOM-Baumanalyse zum Umblättern
Das Umblättern des Blogs verwendet hier eine URL-Verbindung, was bequemer ist.
Zum Beispiel: http://blog.csdn.net/Eastmount/article/list/2
Sie brauchen also nur: 1. Die Gesamtseitenzahl abrufen; 2. Die Informationen jeder Seite crawlen; Stellen Sie die URL so ein, dass sie Seite 4 durchläuft. Erneut crawlen.
Sie können auch auf „Nächste Seite“ klicken, um zu springen. Wenn es keine „Nächste Seite“ gibt, wird der Sprung gestoppt, der Crawler beendet und dann wird der nächste Blogger gecrawlt.

使用python Selenium爬取内容并存储MySQL数据库的实例图解

3. Details abrufen: Titel, Zusammenfassung, Zeit
Dann überprüfen Sie die Elemente und analysieren Sie jede Blog-Seite, wenn Sie Beaut verwenden WennulSoup beim Crawlen einen Fehler „Verboten“ meldet.
Es wurde festgestellt, dass jeder Artikel aus einem

besteht, wie unten gezeigt, Sie müssen nur die Position lokalisieren.

使用python Selenium爬取内容并存储MySQL数据库的实例图解

Sie können nach dem Ort suchen. Hier müssen Sie den Titel, die Zusammenfassung und die Zeit suchen.

使用python Selenium爬取内容并存储MySQL数据库的实例图解

代码如下所示。注意，在while中同时获取三个值，它们是对应的。

#标题
article_title = driver.find_elements_by_xpath("//p[@class=&#39;article_title&#39;]")
for title in article_title:
 con = title.text
 con = con.strip("\n")
 print con + &#39;\n&#39;
    
#摘要
article_description = driver.find_elements_by_xpath("//p[@class=&#39;article_description&#39;]")
for description in article_description:
 con = description.text
 con = con.strip("\n")
 print con + &#39;\n&#39;

#信息
article_manage = driver.find_elements_by_xpath("//p[@class=&#39;article_manage&#39;]")
for manage in article_manage:
 con = manage.text
 con = con.strip("\n")
 print con + &#39;\n&#39;

num = 0
print u&#39;长度&#39;, len(article_title)
while num < len(article_title):
 Artitle = article_title[num].text
 Description = article_description[num].text
 Manage = article_manage[num].text
 print Artitle, Description, Manage

Nach dem Login kopieren

4.特殊字符串处理
获取URL最后一个/后的博主名称、获取字符串时间、阅读数代码如下：

#获取博主姓名
url = "http://blog.csdn.net/Eastmount"
print url.split(&#39;/&#39;)[-1]
#输出: Eastmount

#获取数字
name = "2015-09-08 18:06 阅读(909) 评论(0)"
print name
import re
mode = re.compile(r&#39;\d+\.?\d*&#39;) 
print mode.findall(name)
#输出: [&#39;2015&#39;, &#39;09&#39;, &#39;08&#39;, &#39;18&#39;, &#39;06&#39;, &#39;909&#39;, &#39;0&#39;]
print mode.findall(name)[-2]
#输出: 909


#获取时间
end = name.find(r&#39; 阅读&#39;)
print name[:end]
#输出: 2015-09-08 18:06

import time, datetime
a = time.strptime(name[:end],&#39;%Y-%m-%d %H:%M&#39;)
print a
#输出: time.struct_time(tm_year=2015, tm_mon=9, tm_mday=8, tm_hour=18, tm_min=6,
#  tm_sec=0, tm_wday=1, tm_yday=251, tm_isdst=-1)

Nach dem Login kopieren

三. 数据库相关操作
SQL语句创建表代码如下：

CREATE TABLE `csdn` (
 `ID` int(11) NOT NULL AUTO_INCREMENT,
 `URL` varchar(100) COLLATE utf8_bin DEFAULT NULL,
 `Author` varchar(50) COLLATE utf8_bin DEFAULT NULL COMMENT &#39;作者&#39;,
 `Artitle` varchar(100) COLLATE utf8_bin DEFAULT NULL COMMENT &#39;标题&#39;,
 `Description` varchar(400) COLLATE utf8_bin DEFAULT NULL COMMENT &#39;摘要&#39;,
 `Manage` varchar(100) COLLATE utf8_bin DEFAULT NULL COMMENT &#39;信息&#39;,
 `FBTime` datetime DEFAULT NULL COMMENT &#39;发布日期&#39;,
 `YDNum` int(11) DEFAULT NULL COMMENT &#39;阅读数&#39;,
 `PLNum` int(11) DEFAULT NULL COMMENT &#39;评论数&#39;,
 `DZNum` int(11) DEFAULT NULL COMMENT &#39;点赞数&#39;,
 PRIMARY KEY (`ID`)
) ENGINE=InnoDB AUTO_INCREMENT=9371 DEFAULT CHARSET=utf8 COLLATE=utf8_bin;

Nach dem Login kopieren

显示如下图所示：

使用python Selenium爬取内容并存储MySQL数据库的实例图解

其中，Python调用MySQL推荐下面这篇文字。
python专题九.Mysql数据库编程基础知识
核心代码如下所示：

# coding:utf-8 
import MySQLdb
 
try:
 conn=MySQLdb.connect(host=&#39;localhost&#39;,user=&#39;root&#39;,passwd=&#39;123456&#39;,port=3306, db=&#39;test01&#39;)
 cur=conn.cursor()
 
 #插入数据
 sql = &#39;&#39;&#39;insert into student values(%s, %s, %s)&#39;&#39;&#39;
 cur.execute(sql, (&#39;yxz&#39;,&#39;111111&#39;, &#39;10&#39;))

 #查看数据
 print u&#39;\n插入数据:&#39;
 cur.execute(&#39;select * from student&#39;)
 for data in cur.fetchall():
  print &#39;%s %s %s&#39; % data
 cur.close()
 conn.commit()
 conn.close()
except MySQLdb.Error,e:
  print "Mysql Error %d: %s" % (e.args[0], e.args[1])

Nach dem Login kopieren

注意，在下载过程中，有的网站是新版本的，无法获取页码。
比如：http://blog.csdn.net/michaelzhou224
这时需要简单设置，跳过这些链接，并保存到文件中，核心代码如下所示：

#获取每个博主的博客页面低端总页码  
def getPage():
 print &#39;getPage&#39;
 number = 0  
 #texts = driver.find_element_by_xpath("//p[@id=&#39;papelist&#39;]").text
 texts = driver.find_element_by_xpath("//p[@class=&#39;pagelist&#39;]").text
 print &#39;testsss&#39;
 print u&#39;页码&#39;, texts
 if texts=="":
  print u&#39;页码为0 网站错误&#39;
  return 0
 m = re.findall(r&#39;(\w*[0-9]+)\w*&#39;,texts) #正则表达式寻找数字  
 print u&#39;页数：&#39; + str(m[1])  
 return int(m[1])

Nach dem Login kopieren

主函数修改：

 error = codecs.open("Blog_Error.txt", &#39;a&#39;, &#39;utf-8&#39;)

 #循环获取每个博主的文章摘信息 
 while n < count: #这里爬取2个人博客信息，正常情况count个博主信息
  url = urlfile.readline()
  url = url.strip("\n")
  print url
  driver.get(url+"/article/list/1")
  #print driver.page_source
  #获取总页码
  allPage = getPage()
  print u&#39;页码总数为:&#39;, allPage
  #返回错误，否则程序总截住
  if allPage==0:
   error.write(url + "\r\n")
   print u&#39;错误URL&#39;
   continue; #跳过进入下一个博主
  time.sleep(2)
  #数据库操作结合
  try:
    .....

Nach dem Login kopieren

Das obige ist der detaillierte Inhalt vonBeispieldarstellung der Verwendung von Python Selenium zum Crawlen von Inhalten und Speichern der MySQL-Datenbank. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!