効率的な Java クローラーの実践: Web データクローリング技術の共有-＆＃＆チュートリアル-php.cn

ホームページ

Java

＆＃＆チュートリアル

効率的な Java クローラーの実践: Web データクローリング技術の共有

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 09, 2024 pm 12:29 PM

java 爬虫類データスクレイピング

効率的な Java クローラーの実践: Web データクローリング技術の共有

Java クローラーの実践: Web ページデータを効率的にクロールする方法

はじめに:

インターネットの急速な発展に伴い、大量の貴重なデータがデータはさまざまな Web ページに保存されます。このデータを取得するには、多くの場合、各 Web ページに手動でアクセスして情報を 1 つずつ抽出する必要がありますが、これは間違いなく退屈で時間のかかる作業です。この問題を解決するために、人々はさまざまなクローラーツールを開発しましたが、その中で Java クローラーは最もよく使用されているツールの 1 つです。この記事は、Java を使用して効率的な Web クローラーを作成する方法を読者に理解させ、具体的なコード例を通じてその実践方法を示します。

1. クローラーの基本原理

Web クローラーの基本原理は、ブラウザーをシミュレートして HTTP リクエストを送信し、Web ページを解析して必要なデータを抽出することです。作業プロセスは、次のステップに大別されます。

HTTP リクエストの送信: HttpURLConnection、HttpClient などの Java のネットワークプログラミングライブラリを使用して、HTTP リクエストを作成し、ターゲットに送信します。ウェブページ。
Web ページの解析: Web ページの構造に応じて、Jsoup、XPath などの適切な解析ライブラリを使用して、Web ページを HTML、XML、または JSON 形式で解析し、必要なデータを抽出します。
データの処理と保存: 抽出されたデータをクリーニング、フィルタリングなどで処理し、後で使用できるようにデータベース、ファイル、またはメモリに保存します。

2. クローラー開発環境の作成

Java クローラーの開発を開始するには、対応する環境を構築する必要があります。まず、Java 開発キット (JDK) と、Eclipse、IntelliJ IDEA などの Java 統合開発環境 (IDE) がインストールされていることを確認します。次に、HttpClient、Jsoup などの必要なネットワークプログラミングライブラリをプロジェクトに導入します。

3. 実践的な演習: Douban 映画ランキングデータのキャプチャ

クローラーの開発プロセスを練習するために、例として Douban 映画ランキングのデータをキャプチャすることにしました。私たちの目標は、映画の名前、評価、レビュー者数を抽出することです。

HTTP リクエストの送信

まず、Java のネットワークプログラミングライブラリを使用して HTTP リクエストを送信し、Web ページのコンテンツを取得する必要があります。以下は、HttpClient ライブラリを使用して GET リクエストを送信するサンプルコードです。

import org.apache.http.HttpEntity;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;

public class HttpClientExample {
    public static void main(String[] args) {
        CloseableHttpClient httpClient = HttpClients.createDefault();
        HttpGet httpGet = new HttpGet("https://movie.douban.com/top250");
        
        try (CloseableHttpResponse response = httpClient.execute(httpGet)){
            HttpEntity entity = response.getEntity();
            String result = EntityUtils.toString(entity);
            System.out.println(result);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

Web ページ分析

HTTP リクエストを送信することで、Web コンテンツを取得しました。 Douban映画ランキングの。次に、解析ライブラリを使用して必要なデータを抽出する必要があります。以下は、Jsoup ライブラリを使用して HTML ページを解析するためのサンプルコードです。

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class JsoupExample {
    public static void main(String[] args) {
        try {
            Document document = Jsoup.connect("https://movie.douban.com/top250").get();
            Elements elements = document.select("ol.grid_view li");
            
            for (Element element : elements) {
                String title = element.select(".title").text();
                String rating = element.select(".rating_num").text();
                String votes = element.select(".star span:nth-child(4)").text();
                
                System.out.println("电影名称：" + title);
                System.out.println("评分：" + rating);
                System.out.println("评价人数：" + votes);
                System.out.println("-------------------------");
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

データの処理とストレージ

実際のアプリケーションでは、さらに処理する必要がある場合があります。抽出されたデータの処理と保管。たとえば、後で使用するためにデータをデータベースに保存できます。以下は、MySQL データベースを使用してデータを保存するためのサンプルコードです:

import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.PreparedStatement;
import java.sql.SQLException;

public class DataProcessingExample {
    public static void main(String[] args) {
        String jdbcUrl = "jdbc:mysql://localhost:3306/spider";
        String username = "root";
        String password = "password";
        
        try (Connection conn = DriverManager.getConnection(jdbcUrl, username, password)) {
            String sql = "INSERT INTO movie (title, rating, votes) VALUES (?, ?, ?)";
            PreparedStatement statement = conn.prepareStatement(sql);
            
            // 假设从网页中获取到了以下数据
            String title = "肖申克的救赎";
            String rating = "9.7";
            String votes = "2404447";
            
            statement.setString(1, title);
            statement.setString(2, rating);
            statement.setString(3, votes);
            
            int rowsAffected = statement.executeUpdate();
            System.out.println("插入了 " + rowsAffected + " 条数据");
        } catch (SQLException e) {
            e.printStackTrace();
        }
    }
}

IV. 概要

この記事では、Java クローラーの基本原理を紹介し、Java を使用して効率的な Web ページを作成する方法を示します。具体的なコード例を通して。これらの基本知識を学ぶことで、読者は実際のニーズに応じて、より複雑で柔軟なクローラプログラムを開発できるようになります。実際のアプリケーションでは、法的紛争を避けるために、クローラーの法的使用に注意し、Web サイトのプライバシーポリシーと利用規約を尊重する必要もあります。この記事が読者にとって Java クローラーの学習と応用のガイドとして役立つことを願っています。

以上が効率的な Java クローラーの実践: Web データクローリング技術の共有の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undress AI Tool

脱衣画像を無料で

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

PHP チュートリアル

1596

276

Related knowledge

Javaのデッドロックとは何ですか？どうすればそれを防ぐことができますか？ Aug 23, 2025 pm 12:55 PM

adeadlockinjavaoccurswhentwoorthoreThreadsareblockededforever、それぞれの方向に、通常はdueTococularwaitcausedistentlockdoringを使用します

現在、NVIDIA GPUに接続されたディスプレイを使用していません[修正] Aug 19, 2025 am 12:12 AM

ifyousee "youarenotusing adisplayatchedtoannvidiagpu、" surseyourmonitoristuntedtothenvidiagpuport、configuredisissettingsintingsintingsintinginstingsintingduandcleaninstall、およびsettheprimarysodiscutodiscreteinbios/ueftereed

Javaでオプションの使用方法は？ Aug 22, 2025 am 10:27 AM

useoptional.empty（）、optional.of（）、andoptional.ofnullable（）tocleateoptionalinstancesは、null、ornull、orpossivally null.2.ceeckforvaluessafelyusingispresent（）orpreferablesifppresent（）directnullted（）aboiddirectnullted（）aboiddirestinect（）ofoiddirestinect（）ofoiddirefrestnullterisent（）

PSオイルペイントフィルターグレーアウト修正 Aug 18, 2025 am 01:25 AM

The oilpaintfilterinphotoshopisgreedouturedutivesuredivedocumentmodeorlayertype

安全なコーディングのためのJava暗号化アーキテクチャ（JCA） Aug 23, 2025 pm 01:20 PM

プロバイダーメカニズムを介してアルゴリズムを実装するMessaged Gigest、Cipher、Keygenerator、Securerandom、Signature、KeystoreなどのJCAコアコンポーネントを理解します。 2. SHA-256/SHA-512、AES（256ビットキー、GCMモード）、RSA（2048ビット以上）、Securerandomなどの強力なアルゴリズムとパラメーターを使用します。 3.ハードコーディングされたキーを避け、キーストアを使用してキーを管理し、PBKDF2などの安全に派生したパスワードを介してキーを生成します。 4. ECBモードを無効にし、GCMなどの認証暗号化モードを採用し、各暗号化に一意のランダムIVを使用し、時間内に明確な敏感なモードを使用します

Micronautを使用したクラウドネイティブJavaアプリケーションの構築 Aug 20, 2025 am 01:53 AM

micronautisidealforbuildingcloud-nativejavaapplicationsduetoitsoitsoitlowmemoryfootprint、faststartuptimes、およびcompile-rededependencyinjection、makingsuperiortotrocksworkslikespringbootformicroservices、contate、anderverlessenvironments.1.micronments

Spring Data JPAおよびHibernateを使用したJavaの持続性 Aug 22, 2025 am 07:52 AM

SpringdatajpaとHibernateの核心は一緒に働いています。1。JPAは仕様であり、Hibernateは実装であり、Springdatajpaのカプセル化はDAO開発を簡素化します。 2。エンティティクラス@Entity、@ID、@Columnなどを介してデータベース構造をマップします。 3。リポジトリインターフェイスはJParePositoryを継承して、CRUDおよび名前付きクエリメソッドを自動的に実装します。 4.複雑なクエリは、@queryアノテーションを使用してJPQLまたはネイティブSQLをサポートします。 5。スプリングブートでは、スターター依存関係を追加し、データソースとJPA属性の構成により統合が完了します。 6。トランザクションは@Transactionaによって行われます

修正：Windowsは「必要な特権はクライアントによって保持されていません」を示しています。 Aug 20, 2025 pm 12:02 PM

runtheapplicationorcommandministrator byright-clicking and "runasadministrator" toensureelevatedprivilegeSareSaregranted.2.CheckuseraccountControl（UAC）Settingsearching foruacing foruacing inthestartmenuandSettingtheSedEdeDededefaultLevel（second）

See all articles

効率的な Java クローラーの実践: Web データ クローリング技術の共有

ホットAIツール

Undress AI Tool

Undresser.AI Undress

AI Clothes Remover

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

効率的な Java クローラーの実践: Web データクローリング技術の共有