Web クローラー - Java を使用して情報をクロールし、ランキングシステムを作成するにはどうすればよいですか?

Question

Java Webを学習しているときに、たまたま興味深いプロジェクトがありました。本校では朝ランニングにはクレジットカードが必要ですが、体育科では問い合わせサイトは用意していますが、インターフェースは提供していません。学校の Web サイトから情報を取得してデータベースに保存する Web サイト/WeChat バックエンドを作成して、ユーザーが私の Web サイト/WeChat を通じてクエリできるようにしたいと考えています...

PHP中文网 · Answer

方法を考えてなかったので、何気なく言っただけです。

Jsoup を使用してページデータをクロールします (笑)

代言 · Answer

いくつかのポイントを考えて、簡単に説明します。
1. データキャプチャ。独自のクローラプログラムを作成し、データクロールの時間ルールなどを作成できます。
2. データ処理。jsoup または Web ページのコンテンツをキャプチャします。その他 Web ページの有効なコンテンツを抽出してデータ構造を設計する方法学生 ID は、学生 ID を介して関連付けられる学生テーブルと朝のランニング記録テーブルが存在する必要があります。回数でソートするのは、よく考えたら、実際の朝のランニング時間を判断する方法がないので、時間でソートするのが無理がある場合は、直接回数で話せばいいだけです。実行回数のフィールドを Student テーブルに保存し、レコードテーブルを介したクエリを減らし、効率を向上させます。データ処理が必要なときにこのフィールドを維持することを意味します

三叔 · Answer

一般的には、httpclient这样的工具将返回包拿到，解析报文实体（这里指html页面），接下来就是利用xpath、正则、类似于jQuery方式解析DOM要素に基づいて必要なデータ(jsoupパッケージなど)を取得します。それでも面倒な場合は、webmagicフレームワークを使用できます

。

巴扎黑 · Answer

ログインをシミュレートする: ブラウザを使用してログインページを開き、学生 ID とパスワードを受け取る URL を確認します。ログインをシミュレートするときに、応答ヘッダーから Set-cookie フィールド情報を解析します。
推奨事項: ユーザーが毎回クエリするデータを、たとえば 2 時間キャッシュするには、データベースにクエリされたデータを保存できるため、まず Redis からデータを取得し、取得できない場合はログインをシミュレートします。新しいデータを取得します。データベース層については、あればデータ分析などもできるので、個人的には必要ないと感じています
。