社群

學習

工具庫

AI工具

休閒

繁体中文

首頁 > 後端開發 > Python教學 > 利用python如何爬取js裡面的內容

利用python如何爬取js裡面的內容

零到壹度

發布： 2018-04-10 09:54:12

原創

9508 人瀏覽過

這篇文章給大家分享的內容是3利用python如何爬取js裡面的內容，有著一定的參考價值，有需要的朋友可以參考一下

一、在寫爬蟲軟體獲取所需內容時可能會碰到所需要的內容是由javascript添加上去的在獲取的時候為空比如我們在獲取新浪新聞的評論數時使用普通的方法就無法取得

#普通取得程式碼範例：

import requests
from bs4 import BeautifulSoup

res = requests.get(&#39;http://news.sina.com.cn/c/nd/2017-06-12/doc-ifyfzhac1650783.shtml&#39;)
res.encoding = &#39;utf-8&#39;
soup = BeautifulSoup(res.text,&#39;html.parser&#39;)
#取评论数
commentCount = soup.select_one(&#39;#commentCount1&#39;)
print(commentCount.text)

登入後複製

此時所取得的結果為空這是由於內容是儲存在js檔案中

#因此我們需要取尋找儲存評論內容的js 經過查找我們發現其儲存在改js裡

將對應內容放入json資料檢視器中我們發現評論總數和評論內容都在該js檔案中一json格式存放

#在訊息頭中我們可以看的該js檔案的存取路徑及請求方式

程式碼範例

import json
comments = requests.get(&#39;http://comment5.news.sina.com.cn/page/info?version=1&format=js&channel=gn&newsid=comos-fyfzhac1650783&#39;)
comments.encoding = &#39;utf-8&#39;
print(comments)
jd = json.loads(comments.text.strip(&#39;var data=&#39;)) #移除改var data=将其变为json数据
print(jd[&#39;result&#39;][&#39;count&#39;][&#39;total&#39;])

登入後複製

程式碼範例

rrreee

註解：這裡解釋下為何需要移除var data= 因為在取得時字串前綴是包含var data=的其不符合json資料格式因此轉換時需將其從請求內容中移除

取評論總數時為何使用jd[

'result'][
'count'

][

'total'
]

######################

以上是利用python如何爬取js裡面的內容的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

javascript python 爬取

上一篇：Anaconda的新手使用大全下一篇：Python中title()方法的使用

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

跟我學PS第八天02：光效素材的摳圖方法

2018-08-28 15:02:42
跟我學PS第八天01：如何摳取文件中的印章

2018-08-25 10:55:46
跟我學PS第七天02：如何摳出複雜樹林

2018-08-20 16:25:41
跟我學PS第七天01：如何將彩圖摳出線稿效果

2018-08-18 11:26:54
跟我學PS第六天02：模糊工具

2018-08-14 16:35:58
跟我學PS第六天01：修復畫筆工具

2018-07-28 15:36:43
跟我學PS第五天02：移動工具的使用方法與應用

2018-07-27 16:59:00
跟我學PS第五天01：使用裁切工具

2018-07-27 15:22:47
跟我學PS第四天02：練習Photoshop中的套索工具

2018-07-23 17:56:00
跟我學PS第四天01：如何為照片加邊框效果

2018-07-23 16:21:38

最新問題

JavaScript教學：利用JavaScript建立和讀取cookie中的值

來自於 1970-01-01 08:00:00

0

0

0

怎麼實作 JavaScript點與圓的位置關係

來自於 1970-01-01 08:00:00

0

0

0

JavaScript鉤子函數是什麼？

來自於 1970-01-01 08:00:00

0

0

0

javascript - 正規表示式符合兩個字串之間的內容

來自於 1970-01-01 08:00:00

0

0

0

c++ 呼叫javascript

來自於 1970-01-01 08:00:00

0

0

0

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1437001
php入門教程之一週學會PHP

4296756
JAVA 初級入門影片教學

2664361
小甲魚零基礎入門學習Python影片教學

516503
PHP 零基礎入門教學

877228

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板