ホームページ Java &#&チュートリアル 効率的な Java クローラーの実践: Web データ クローリング技術の共有

効率的な Java クローラーの実践: Web データ クローリング技術の共有

Jan 09, 2024 pm 12:29 PM
java 爬虫類 データスクレイピング

効率的な Java クローラーの実践: Web データ クローリング技術の共有

Java クローラーの実践: Web ページ データを効率的にクロールする方法

はじめに:

インターネットの急速な発展に伴い、大量の貴重なデータがデータはさまざまな Web ページに保存されます。このデータを取得するには、多くの場合、各 Web ページに手動でアクセスして情報を 1 つずつ抽出する必要がありますが、これは間違いなく退屈で時間のかかる作業です。この問題を解決するために、人々はさまざまなクローラー ツールを開発しましたが、その中で Java クローラーは最もよく使用されているツールの 1 つです。この記事は、Java を使用して効率的な Web クローラーを作成する方法を読者に理解させ、具体的なコード例を通じてその実践方法を示します。

1. クローラーの基本原理

Web クローラーの基本原理は、ブラウザーをシミュレートして HTTP リクエストを送信し、Web ページを解析して必要なデータを抽出することです。作業プロセスは、次のステップに大別されます。

  1. HTTP リクエストの送信: HttpURLConnection、HttpClient などの Java のネットワーク プログラミング ライブラリを使用して、HTTP リクエストを作成し、ターゲットに送信します。ウェブページ。
  2. Web ページの解析: Web ページの構造に応じて、Jsoup、XPath などの適切な解析ライブラリを使用して、Web ページを HTML、XML、または JSON 形式で解析し、必要なデータを抽出します。
  3. データの処理と保存: 抽出されたデータをクリーニング、フィルタリングなどで処理し、後で使用できるようにデータベース、ファイル、またはメモリに保存します。

2. クローラー開発環境の作成

Java クローラーの開発を開始するには、対応する環境を構築する必要があります。まず、Java 開発キット (JDK) と、Eclipse、IntelliJ IDEA などの Java 統合開発環境 (IDE) がインストールされていることを確認します。次に、HttpClient、Jsoup などの必要なネットワーク プログラミング ライブラリをプロジェクトに導入します。

3. 実践的な演習: Douban 映画ランキング データのキャプチャ

クローラーの開発プロセスを練習するために、例として Douban 映画ランキングのデータをキャプチャすることにしました。私たちの目標は、映画の名前、評価、レビュー者数を抽出することです。

  1. HTTP リクエストの送信

まず、Java のネットワーク プログラミング ライブラリを使用して HTTP リクエストを送信し、Web ページのコンテンツを取得する必要があります。以下は、HttpClient ライブラリを使用して GET リクエストを送信するサンプル コードです。

import org.apache.http.HttpEntity;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;

public class HttpClientExample {
    public static void main(String[] args) {
        CloseableHttpClient httpClient = HttpClients.createDefault();
        HttpGet httpGet = new HttpGet("https://movie.douban.com/top250");
        
        try (CloseableHttpResponse response = httpClient.execute(httpGet)){
            HttpEntity entity = response.getEntity();
            String result = EntityUtils.toString(entity);
            System.out.println(result);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}
  1. Web ページ分析

HTTP リクエストを送信することで、Web コンテンツを取得しました。 Douban映画ランキングの。次に、解析ライブラリを使用して必要なデータを抽出する必要があります。以下は、Jsoup ライブラリを使用して HTML ページを解析するためのサンプル コードです。

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class JsoupExample {
    public static void main(String[] args) {
        try {
            Document document = Jsoup.connect("https://movie.douban.com/top250").get();
            Elements elements = document.select("ol.grid_view li");
            
            for (Element element : elements) {
                String title = element.select(".title").text();
                String rating = element.select(".rating_num").text();
                String votes = element.select(".star span:nth-child(4)").text();
                
                System.out.println("电影名称:" + title);
                System.out.println("评分:" + rating);
                System.out.println("评价人数:" + votes);
                System.out.println("-------------------------");
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}
  1. データの処理とストレージ

実際のアプリケーションでは、さらに処理する必要がある場合があります。抽出されたデータの処理と保管。たとえば、後で使用するためにデータをデータベースに保存できます。以下は、MySQL データベースを使用してデータを保存するためのサンプル コードです:

import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.PreparedStatement;
import java.sql.SQLException;

public class DataProcessingExample {
    public static void main(String[] args) {
        String jdbcUrl = "jdbc:mysql://localhost:3306/spider";
        String username = "root";
        String password = "password";
        
        try (Connection conn = DriverManager.getConnection(jdbcUrl, username, password)) {
            String sql = "INSERT INTO movie (title, rating, votes) VALUES (?, ?, ?)";
            PreparedStatement statement = conn.prepareStatement(sql);
            
            // 假设从网页中获取到了以下数据
            String title = "肖申克的救赎";
            String rating = "9.7";
            String votes = "2404447";
            
            statement.setString(1, title);
            statement.setString(2, rating);
            statement.setString(3, votes);
            
            int rowsAffected = statement.executeUpdate();
            System.out.println("插入了 " + rowsAffected + " 条数据");
        } catch (SQLException e) {
            e.printStackTrace();
        }
    }
}

IV. 概要

この記事では、Java クローラーの基本原理を紹介し、Java を使用して効率的な Web ページを作成する方法を示します。具体的なコード例を通して。これらの基本知識を学ぶことで、読者は実際のニーズに応じて、より複雑で柔軟なクローラ プログラムを開発できるようになります。実際のアプリケーションでは、法的紛争を避けるために、クローラーの法的使用に注意し、Web サイトのプライバシー ポリシーと利用規約を尊重する必要もあります。この記事が読者にとって Java クローラーの学習と応用のガイドとして役立つことを願っています。

以上が効率的な Java クローラーの実践: Web データ クローリング技術の共有の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

ホットトピック

Javaのデッドロックとは何ですか?どうすればそれを防ぐことができますか? Javaのデッドロックとは何ですか?どうすればそれを防ぐことができますか? Aug 23, 2025 pm 12:55 PM

adeadlockinjavaoccurswhentwoorthoreThreadsareblockededforever、それぞれの方向に、通常はdueTococularwaitcausedistentlockdoringを使用します

現在、NVIDIA GPUに接続されたディスプレイを使用していません[修正] 現在、NVIDIA GPUに接続されたディスプレイを使用していません[修正] Aug 19, 2025 am 12:12 AM

ifyousee "youarenotusing adisplayatchedtoannvidiagpu、" surseyourmonitoristuntedtothenvidiagpuport、configuredisissettingsintingsintingsintinginstingsintingduandcleaninstall、およびsettheprimarysodiscutodiscreteinbios/ueftereed

Javaでオプションの使用方法は? Javaでオプションの使用方法は? Aug 22, 2025 am 10:27 AM

useoptional.empty()、optional.of()、andoptional.ofnullable()tocleateoptionalinstancesは、null、ornull、orpossivally null.2.ceeckforvaluessafelyusingispresent()orpreferablesifppresent()directnullted()aboiddirectnullted()aboiddirestinect()ofoiddirestinect()ofoiddirefrestnullterisent()

PSオイルペイントフィルターグレーアウト修正 PSオイルペイントフィルターグレーアウト修正 Aug 18, 2025 am 01:25 AM

The oilpaintfilterinphotoshopisgreedouturedutivesuredivedocumentmodeorlayertype

安全なコーディングのためのJava暗号化アーキテクチャ(JCA) 安全なコーディングのためのJava暗号化アーキテクチャ(JCA) Aug 23, 2025 pm 01:20 PM

プロバイダーメカニズムを介してアルゴリズムを実装するMessaged Gigest、Cipher、Keygenerator、Securerandom、Signature、KeystoreなどのJCAコアコンポーネントを理解します。 2. SHA-256/SHA-512、AES(256ビットキー、GCMモード)、RSA(2048ビット以上)、Securerandomなどの強力なアルゴリズムとパラメーターを使用します。 3.ハードコーディングされたキーを避け、キーストアを使用してキーを管理し、PBKDF2などの安全に派生したパスワードを介してキーを生成します。 4. ECBモードを無効にし、GCMなどの認証暗号化モードを採用し、各暗号化に一意のランダムIVを使用し、時間内に明確な敏感なモードを使用します

Micronautを使用したクラウドネイティブJavaアプリケーションの構築 Micronautを使用したクラウドネイティブJavaアプリケーションの構築 Aug 20, 2025 am 01:53 AM

micronautisidealforbuildingcloud-nativejavaapplicationsduetoitsoitsoitlowmemoryfootprint、faststartuptimes、およびcompile-rededependencyinjection、makingsuperiortotrocksworkslikespringbootformicroservices、contate、anderverlessenvironments.1.micronments

Spring Data JPAおよびHibernateを使用したJavaの持続性 Spring Data JPAおよびHibernateを使用したJavaの持続性 Aug 22, 2025 am 07:52 AM

SpringdatajpaとHibernateの核心は一緒に働いています。1。JPAは仕様であり、Hibernateは実装であり、Springdatajpaのカプセル化はDAO開発を簡素化します。 2。エンティティクラス@Entity、@ID、@Columnなどを介してデータベース構造をマップします。 3。リポジトリインターフェイスはJParePositoryを継承して、CRUDおよび名前付きクエリメソッドを自動的に実装します。 4.複雑なクエリは、@queryアノテーションを使用してJPQLまたはネイティブSQLをサポートします。 5。スプリングブートでは、スターター依存関係を追加し、データソースとJPA属性の構成により統合が完了します。 6。トランザクションは@Transactionaによって行われます

修正:Windowsは「必要な特権はクライアントによって保持されていません」を示しています。 修正:Windowsは「必要な特権はクライアントによって保持されていません」を示しています。 Aug 20, 2025 pm 12:02 PM

runtheapplicationorcommandministrator byright-clicking and "runasadministrator" toensureelevatedprivilegeSareSaregranted.2.CheckuseraccountControl(UAC)Settingsearching foruacing foruacing inthestartmenuandSettingtheSedEdeDededefaultLevel(second)

See all articles