POI は、Word、Excel、PowerPoint などのツールを含む Microsoft Office アプリケーションを統合するための人気のある Java ライブラリです。 POI ライブラリは、これらのドキュメントを作成、読み取り、編集するための複数の方法を提供します。この記事では、POI を使用して HTML ファイルを Word ドキュメントに変換する方法を説明します。
まず、コードに POI の依存関係を追加する必要があります。これは、Maven pom.xml ファイルに次の依存関係を追加することで実現できます。
<dependency> <groupId>org.apache.poi</groupId> <artifactId>poi</artifactId> <version>4.1.2</version> </dependency> <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi-ooxml</artifactId> <version>4.1.2</version> </dependency>
これで、HTML ファイルの変換を開始できます。これを行うには、まず Jsoup ライブラリを使用して HTML ファイルを DOM (Document Object Model) オブジェクトに解析します。次に、POI ライブラリを使用して Word ドキュメントを作成し、DOM オブジェクトのコンテンツをその段落に追加します。以下は、単純な HTML ファイルを Word ドキュメントに変換するサンプル コードです。
import java.io.*; import org.apache.poi.xwpf.usermodel.*; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; public class Main { public static void main(String[] args) { try { // 解析HTML文件 File input = new File("input.html"); Document doc = Jsoup.parse(input, "UTF-8"); // 创建Word文档 XWPFDocument docx = new XWPFDocument(); FileOutputStream out = new FileOutputStream(new File("output.docx")); // 获取HTML文件中的段落 Elements paras = doc.select("p"); for (Element para : paras) { // 在Word文档中创建段落 XWPFParagraph newPara = docx.createParagraph(); // 将HTML内容添加到段落中 newPara.createRun().setText(para.text()); } // 保存Word文档 docx.write(out); out.close(); docx.close(); System.out.println("HTML文件已成功转换为Word文档!"); } catch (Exception e) { e.printStackTrace(); } } }
上記のコードでは、まず HTML ファイルを読み込み、Jsoup ライブラリを使用して解析します。次に、新しい Word 文書を表す XWPFDocument オブジェクトを作成します。次に、HTML ファイル内のすべての段落を取得し、それらを Word 文書の段落に 1 つずつ追加し、毎回 Word 文書内に新しい段落を作成します。最後に、Word 文書を保存し、関連するストリームとオブジェクトを閉じます。
上記のサンプル コードは単なる単純な例であり、HTML ファイルに p タグのみが含まれていることを前提としていることに注意してください。実際には、HTML ファイルには、特別な処理を必要とする可能性のある他の多くのタグや要素が含まれている可能性があります。たとえば、画像、表、ハイパーリンク、その他の種類の要素を操作する必要がある場合があります。
場合によっては、POI で高レベルの API を使用して、Word ドキュメントの書式設定とスタイルをより詳細に制御することもできます。たとえば、XWPFParagraph クラスや XWPFRun クラスのメソッドを使用して、より詳細な設定を行うことができます。
結論として、POI と Jsoup を使用して HTML ファイルを Word ドキュメントに変換することは、ユーザーに柔軟性と拡張性を提供するため、比較的簡単で便利な作業です。実際には、生成する Word 文書の形式と内容が期待どおりであることを確認するために、大規模な調整とテストを行う必要がある場合があります。
以上がHTMLからWordへのポイの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。