Python爬蟲類分析《戰狼》影評-Linux-PHP中文網

導讀	截止到 8 月 20 日，《戰狼Ⅱ》上映的第 25 天，它的票房已超 50 億人民幣，真正成為唯一一部挺進世界影史票房前 100 名的亞洲電影。本文透過 Python 爬蟲的方式取得數據，對豆瓣電影評論進行分析，並製作了豆瓣影評的雲圖。現在，讓我們來看看，《戰狼Ⅱ》評論裡到底藏著哪些有趣的潛台詞。

Python爬蟲類分析《戰狼》影評

#拋開爆炸的票房不說，電影還激起了觀眾各種情緒，甚至有人放狠話說：敢噴《戰狼Ⅱ》的，要么是智障，要么是公敵，就是這麼簡單粗暴。
大家對《戰狼Ⅱ》褒貶不一，紛紛在豆瓣短評上面留言，表達自己對這部電影的看法。儘管各路評論出街，媒體鬧得沸沸揚揚，觀眾還是傻傻分不清楚哪邊意見比較可靠。

截至目前為止已經有超過十五萬的評論，在你看評論的時候，你可能在一段時間裡看到的大部分是表揚或者是貶低的評論。那麼透過瀏覽評論我們很難看出大家對於這部電影的整體狀況。現在讓我們透過數據分析的方法來看看在這些評論中究竟發生了什麼有趣的事情！

本文透過 Python 爬蟲的方式取得數據，對豆瓣電影評論進行分析，製作了豆瓣影評的雲圖。現在，讓我們來看看，《戰狼Ⅱ》評論裡到底藏著哪些有趣的潛台詞。

資料的取得

本文採用的是 Python 爬蟲的方式取得的數據，用到的主要是 requests 套件與正規套件 re，程式並未對驗證碼進行處理。之前也爬取過豆瓣的網頁，當時由於爬取的內容少，所以並沒有遇到驗證碼的事情。在寫本文爬蟲的時候，原以為也不會有驗證碼，但是當爬取到大概 15000 個評論的時候跳出來驗證碼。
然後我就想不就是十二萬嗎？最多我也就是輸入大概十幾次驗證碼，所以就沒有處理驗證碼的事情。但接下來的事情就有點坑到我了，爬取15000 左右評論並輸入驗證碼的時候，我以為會接下來爬取到30000 左右，可是才爬了3000 左右就不行了，還是要輸驗證碼。

然後就一直這樣，跌跌撞撞，有時候爬取好長時間才需要驗證碼，有時候則不是。不過最後還是把評論爬上來了。爬取的內容主要是：用戶名，是否看過，評論的星星點數，評論時間，認為有用的人數，評論內容。以下是 Python 爬蟲的程式碼：
import requests import re import pandas as pd url_first='https://movie.douban.com/subject/26363254/comments?start=0' head={'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/59.0.3071.109 Chrome/59.0.3071.109. html=requests.get(url_first,headers=head,cookies=cookies) cookies={'cookie':'你自己的cookie'} #也就是找到你的帳號對應的cookie reg=re.compile(r'') #下一頁 ren=re.compile(r' (.*?).*?comment">(.*?).*?.*?(.*?).*? (.*?).*?title="(.*?)">.*?title="(.*?)">.*?class=""> (.*?) \n',re.S) #評論等內容 while html.status_code==200: url_next='https://movie.douban.com/subject/26363254/comments' re.findall(reg,html.text)[0] zhanlang=re.findall(ren,html.text) data=pd.DataFrame(zhanlang) data.to_csv('/home/wajuejiprince/文檔/zhanlang/zhanlangpinglun.csv', header=False,index=False,mode='a ') #寫入csv檔案,'a '是追加模式 data=[] zhanlang=[] html=requests.get(url_next,cookies=cookies,headers=head) # 以上程式碼注意設定你自己的 User-Agent，Cookie，CSV 儲存路徑等，爬取的內容儲存成 CSV 格式的檔案。

資料清洗本文用 R語言來處理數據，雖然在爬取的時候已經非常注意爬取內容的結構了，但是還是不可避免的有一些值不是我們想要的。例如有的評論內容會出現在評論者這項中，所以還是有必要進行一下資料的清洗。

首先載入要用到的所有套件：

library(data.table)library(plotly) library(stringr) library(jiebaR) library(wordcloud2) library(magrittr) # 導入資料並清洗：

dt

資料淺析先來看看透過星星數評論的情況：

plot_ly(my_dt[,.(.N),by=.(五星數)],type = 'bar',x=~五星數,y=~N)
Python爬蟲類分析《戰狼》影評

五角星的數量對應 5 個等級，5 顆星代表力薦，4 顆星代表推薦，3 顆星代表還行，2 顆星代表較差，1 顆星代表很差。
透過五角星的評論顯而易見，我們有理由相信絕大部分觀眾對這部電影持滿意態度。

首先我們應該先進行評論的分詞：
wk 整體評論雲圖展示： <code>words�ta.table() setnames(words,"N","pinshu") words[pinshu>1000] #去除較低頻數的詞彙（小於1000的） wordcloud2(words[pinshu>1000], size = 2, fontFamily = "微軟雅黑",color = "random-light", backgroundColor = "grey")
由於資料太多，導致我的破電腦卡頓，所以在製作雲圖的時候去掉了頻數低於 1000 的詞彙。雲圖結果如下：
Python爬蟲類分析《戰狼》影評