Dengan perkembangan Internet, HTML telah menjadi bahasa pengeluaran halaman web yang paling biasa, dan Word ialah salah satu perisian pejabat yang paling popular, dan dokumen yang dihasilkannya digunakan secara meluas dalam semua lapisan masyarakat. Oleh itu, menukar dokumen Word kepada format HTML membolehkannya diterbitkan dengan lebih baik di Internet. Artikel ini akan memperkenalkan kaedah menukar Word kepada HTML berdasarkan perpustakaan POI.
1. Pengenalan kepada perpustakaan POI
Apache POI ialah API Java untuk membaca dan menulis fail format binari Microsoft Office. POI menyediakan satu siri API standard untuk memproses fail dalam format .doc, .docx, .ppt, .pptx, .xls dan .xlsx. Versi terkini POI ialah 4.1.2, yang menyokong semua versi format dokumen Office, termasuk Office 97-2003, Office 2007-2013 dan Office 2016.
2. Gunakan POI untuk menukar Word kepada HTML
Berdasarkan perpustakaan POI, kami boleh menukar teks, jadual, gambar, hiperpautan dan gaya dalam Word ke dalam format HTML. Langkah pelaksanaan khusus adalah seperti berikut:
Pertama, kita perlu memuatkan dokumen Word. POI menyediakan kelas XWPFDocument untuk memuatkan dokumen Word format .docx dan kelas HWPFDocument untuk memuatkan dokumen .doc format lama.
Sebagai contoh, kod berikut digunakan untuk memuatkan dokumen Word bernama "test.docx":
FileInputStream fis = new FileInputStream(new File("test.docx")); XWPFDocument document = new XWPFDocument(fis);
2 Ekstrak teks dan gaya
Seterusnya, kita perlu gelung melalui dokumen Word Perenggan, teks dan gaya dalam HTML untuk mewakili struktur dan gaya dokumen dengan lebih baik semasa menjana HTML.
Langkah pertama ialah melalui setiap perenggan. Untuk setiap perenggan, kita perlu mengekstrak sifat gayanya seperti fon, warna, tebal, dll. Kita juga perlu mengekstrak teks dalam perenggan.
List<XWPFParagraph> paragraphs = document.getParagraphs(); for (XWPFParagraph para : paragraphs) { String text = para.getParagraphText(); // 提取样式属性 CTPPr ppr = para.getCTP().getPPr(); // ... }
3. Proses kandungan teks
Kita perlu menukar kandungan teks dalam dokumen Word ke dalam format HTML dan mengeluarkannya. Untuk setiap bahagian teks, kami boleh mempersembahkannya melalui teg dan gaya seperti tebal, condong dan garis bawah.
Selain itu, aksara khas kadangkala wujud dalam dokumen Word, seperti ruang, tab, pemisah baris, dsb. Kita perlu menukar aksara khas ini kepada tag yang sepadan dalam HTML.
StringBuilder sb = new StringBuilder(); for (XWPFRun run : runs) { String text = run.getText(0); if(text != null) { // 转换特殊字符 text = text.replace(" ", "<span> </span>"); text = text.replace(" ", "<span> </span>"); text = text.replace(" ", "<br>"); // 将文本转换为HTML String style = getStyle(run); sb.append("<span ").append(style).append(">").append(text).append("</span>"); } } String content = sb.toString();
4 Memproses imej dan hiperpautan
Selepas memproses teks, kami perlu memproses imej dan hiperpautan dalam dokumen Word. POI menyediakan kelas XWPFRun untuk mengendalikan imej dan hiperpautan.
Untuk gambar, kita boleh mengekstrak data binarinya dahulu dan menulisnya ke dalam teg yang sepadan dalam HTML:
List<XWPFPicture> pictures = run.getEmbeddedPictures(); for (XWPFPicture pic : pictures) { try { byte[] data = pic.getPictureData().getData(); String ext = pic.getPictureData().suggestFileExtension(); String filename = UUID.randomUUID().toString() + "." + ext; // 将图片转换为HTML格式 String imgHtml = "<img src="" + filename + "" />"; // 写入文件 FileOutputStream fos = new FileOutputStream(new File(outputDir, filename)); fos.write(data); fos.close(); } catch (IOException e) { e.printStackTrace(); } }
Untuk hiperpautan, kita perlu mengekstrak alamat dan teksnya, dan menulisnya ke dalam tag yang sepadan dalam HTML:
CTHyperlink hyperlink = run.getCTR().getHyperlinkArray(0); if (hyperlink != null) { String url = hyperlink.getRArray(0).getT(); String text = content.substring(start, end); String linkHtml = "<a href="" + url + "">" + text + "</a>"; content = content.substring(0, start) + linkHtml + content.substring(end); }
5 Keluarkan fail HTML
Akhir sekali, kami menulis teks HTML yang dijana ke dalam fail .HTML, dan Fail itu disimpan dalam direktori yang ditentukan:
File outputDir = new File("output"); if (!outputDir.exists()) { outputDir.mkdirs(); } FileOutputStream htmlFile = new FileOutputStream(new File(outputDir, "test.html")); String html = "<!DOCTYPE html><html><head><meta charset="UTF-8"></head><body>" + content + "</body></html>"; htmlFile.write(html.getBytes("UTF-8")); htmlFile.close();
3. Ringkasan
Artikel ini memperkenalkan kaedah menukar Word kepada HTML berdasarkan perpustakaan POI Kaedah ini boleh menukar teks dan jadual dalam dokumen Word , gambar, hiperpautan, gaya dan kandungan lain ditukar kepada format HTML dan output kepada fail HTML dalam direktori yang ditentukan. Kaedah ini sesuai untuk senario di mana dokumen Word perlu diterbitkan ke Internet, seperti e-buku, kertas kerja, dokumen teknikal, dll.
Atas ialah kandungan terperinci perkataan poi 转 html. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!