Mengekstrak kandungan daripada dokumen Word membolehkan kami menggunakannya untuk operasi lain, seperti menyimpan kandungan dalam pangkalan data, mengimport kandungan ke dalam program lain, untuk latihan kecerdasan buatan dan mencipta dokumen lain. Spire.Doc untuk Python memudahkan untuk mengekstrak teks dan imej daripada dokumen Word tanpa banyak menyalin dan menampal atau pengekodan yang kompleks. Artikel ini menerangkan cara mengekstrak dan menyimpan kandungan teks dan imej daripada dokumen Word menggunakan kod mudah.Import Spire.Doc untuk Python
pip install Spire.Doc pip install plum-dispatch==1.7.4
Ekstrak teks daripada dokumen Word dan tulis ke fail TXT
kaedah mendapatkan semula semua teks dalam dokumen Word dan mengembalikannya sebagai rentetan. Kita boleh menulis rentetan yang dikembalikan ke dalam fail teks untuk penyimpanan. Langkah-langkahnya adalah seperti berikut:
Buat objekPython
Copy from turtle import st from spire.doc import * from spire.doc.common import * def WriteAllText(fname:str,text:List[str]): fp = open(fname,"w") for s in text: fp.write(s) fp.close() inputFile = "Beispiel.docx" outputFile = "Extrahierter Text.txt" #Document-Objekt erstellen document = Document() #Word-Dokument laden document.LoadFromFile(inputFile) #Text aus Dokument abrufen text = document.GetText() #Text in Textdatei schreiben WriteAllText(outputFile, text) document.Close()
Bilder aus Word-Dokument extrahieren und speichern
Python
Copy import queue from spire.doc import * from spire.doc.common import * import os outputPath = "Bilder/" inputFile = "Beispiel.docx" if not os.path.exists(outputPath): os.makedirs(outputPath) #Document-Objekt erstellen document = Document() #Word-Dokument laden document.LoadFromFile(inputFile) #Warteschlange erstellen und Dokumentenelemente hinzufügen nodes = queue.Queue() nodes.put(document) #Liste erstellen images = [] #Dokumentenelemente durchlaufen while nodes.qsize() > 0: node = nodes.get() for i in range(node.ChildObjects.Count): #Untergeordnetes Objekt des Dokumentenelements abrufen child = node.ChildObjects.get_Item(i) #Prüfen, ob es ein Bild ist if child.DocumentObjectType == DocumentObjectType.Picture: picture = child if isinstance(child, DocPicture) else None dataBytes = picture.ImageBytes #Zur Liste hinzufügen images.append(dataBytes) #Prüfen, ob es ein zusammengesetztes Objekt ist elif isinstance(child, ICompositeObject): #Zur Warteschlange hinzufügen nodes.put(child if isinstance(child, ICompositeObject) else None) #Bilder speichern for i, item in enumerate(images): fileName = "Bild-{}.png".format(i) with open(outputPath+fileName,'wb') as imageFile: imageFile.write(item) document.Close()
Der extrahierte Text wird mit angehängten Bewertungsinformationen gespeichert.
Ini adalah pengenalan menggunakan Spire.Doc untuk Python untuk mengekstrak teks dan imej daripada dokumen Word. Spire.Doc untuk Python menyokong banyak operasi dokumen lain. Semak tapak web rasmi atau sertai forum Spire.Doc.
Atas ialah kandungan terperinci Ekstrak teks dan imej daripada dokumen Word menggunakan Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!