網頁爬蟲 - 如何使用使用java抓取資訊並製作排名系統？

Question

在學習java web 正好有一個有趣的項目可以做 。我們學校需要晨跑刷卡，體育部提供一個查詢網站，但不提供介面。想做一個網站/微信後台從學校網上抓取資訊儲存到資料庫 然後用戶可以透過我的 網站/微信來查詢...

PHP中文网 · Answer

我就隨便說個，因為我也沒想到用什麼方法。

用Jsoup去爬頁面數據，哈哈

代言 · Answer

想到了幾點，簡單說下：
1.資料抓取，可以自己寫抓取程序，制定資料爬取的時間規則之類的
2.資料處理，抓取到網頁的內容通過jsoup或其他方式對網頁有效內容提取，並設計資料結構，學號應該是唯一的，可以有學員表和晨跑記錄表，透過學號進行關聯
3.我的個人理解是按照次數排序，因為想了下，如果按照時間排序是不合理的，因為是沒有辦法判斷真正的晨跑時間的，那我這裡就按次數來說吧，可以直接在學員表存放跑步次數的字段，減少通過記錄表查詢，提高效率，就是需要資料處理時維護此欄位

三叔 · Answer

一般來說呢，是基於httpclient這樣的工具會回傳包拿到，解析封包實體（這裡指html頁），接下來就是利用xpath、正則、類似jQuery方式解析DOM元素取得你想要的資料（如jsoup套件），如果還嫌麻煩可以使用webmagic框架

巴扎黑 · Answer

模擬登陸：用瀏覽器開啟登陸頁觀察接收學號密碼的url；模擬登陸時post資料到該url；從response的header中解析Set-cookie欄位資訊；
資料抓取：向體育資料頁發起get請求(帶上上一個步驟中拿到的cookie欄位)，拿到response，然後進行正規解析取得資料即可；

建議：快取使用者每次查詢的數據，例如快取2小時，建議使用redis；資料庫可以存查詢到的數據，先從redis中取數據，取不到再模擬登陸拿新數據。至於資料庫這一層，個人覺得可有可無，有的話也可以進行數據分析什麼的