Java HTML 解析
Web スクレイピング アプリケーションを使用する場合、HTML ページからデータを効果的に抽出する必要があります。このシナリオのタスクは、指定された CSS クラス名を持つ特定の DIV タグからデータを取得することです。 HTML の各行でクラス名を検索する現在のアプローチは機能しますが、最適ではない可能性があります。
代替としての Jsoup
Jsoup の使用を検討してください。 HTML処理用のライブラリです。 Jsoup は不正な HTML を処理するように設計されており、jQuery のようなタグ セレクターを使用して Java で HTML を解析するための便利な構文を提供します。
Jsoup の使用
Jsoup を使用するには、次の手順に従います。手順:
例:
<code class="java">import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.select.Elements; Document doc = Jsoup.parse(html); Elements divs = doc.select("div.classname"); for (Element div : divs) { if (div.hasClass("classname")) { System.out.println("Text: " + div.text()); System.out.println("Link: " + div.attr("href")); } }</code>
以上がJava で特定のクラス名を持つ HTML DIV タグからデータを効率的に抽出する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。