Ekstrak teks dan imej daripada dokumen Word menggunakan Python-Tutorial Python-php.cn

Mengekstrak kandungan daripada dokumen Word membolehkan kami menggunakannya untuk operasi lain, seperti menyimpan kandungan dalam pangkalan data, mengimport kandungan ke dalam program lain, untuk latihan kecerdasan buatan dan mencipta dokumen lain. Spire.Doc untuk Python memudahkan untuk mengekstrak teks dan imej daripada dokumen Word tanpa banyak menyalin dan menampal atau pengekodan yang kompleks. Artikel ini menerangkan cara mengekstrak dan menyimpan kandungan teks dan imej daripada dokumen Word menggunakan kod mudah.Import Spire.Doc untuk Python

Sebelum anda boleh menggunakan alat ini untuk mengedit dokumen Word, anda mesti mengimportnya ke dalam projek. Anda boleh memuat turunnya dari laman web rasmi Spire.Doc untuk Python atau memasangnya terus dengan pip. Kodnya kelihatan seperti ini:

pip install Spire.Doc pip install plum-dispatch==1.7.4

Salin selepas log masuk

Masuk mod skrin penuh Keluar daripada mod skrin penuh Musterdokument

Ekstrak teks dan imej daripada dokumen Word menggunakan Python Ekstrak teks daripada dokumen Word dan tulis ke fail TXT

Spire.Doc for Python's

Document.GetText()

kaedah mendapatkan semula semua teks dalam dokumen Word dan mengembalikannya sebagai rentetan. Kita boleh menulis rentetan yang dikembalikan ke dalam fail teks untuk penyimpanan. Langkah-langkahnya adalah seperti berikut:

Buat objek

.Gunakan kaedah
untuk memuatkan dokumen Word.Dapatkan teks daripada dokumen menggunakan kaedah
.Den abgerufenen Text in eine Textdatei schreiben.

Kod Bespiel

Python

Copy from turtle import st from spire.doc import * from spire.doc.common import * def WriteAllText(fname:str,text:List[str]): fp = open(fname,"w") for s in text: fp.write(s) fp.close() inputFile = "Beispiel.docx" outputFile = "Extrahierter Text.txt" #Document-Objekt erstellen document = Document() #Word-Dokument laden document.LoadFromFile(inputFile) #Text aus Dokument abrufen text = document.GetText() #Text in Textdatei schreiben WriteAllText(outputFile, text) document.Close()

Salin selepas log masuk

Masuk mod skrin penuh Keluar daripada mod skrin penuh Teks Extrahierter

Ekstrak teks dan imej daripada dokumen Word menggunakan Python Bilder aus Word-Dokument extrahieren und speichern

Das Extrahieren von Bildern ist komplexer , ob dessen untergeordnete Objekte Bilder enthalten:

Buat objek

.Gunakan kaedah
untuk memuatkan dokumen Word.Eine Warteschlange für zusammengesetzte Objekte erstellen und die Dokumentenelemente hinzufügen.
Eine Liste zum Speichern der extrahierten Bilder erstellen.
Die Dokumentenelemente durchlaufen and die untergeordneten Objekte jedes Knotens durchlaufen, um zu prüfen, ob es sich um ein zusammengesetztes Objekt oder Bildobjekt handelt.
Prüfen, ob das untergeordnete Element ein Bildobjekt ist, die Bilddaten extrahieren und zur Liste hinzufügen.
Prüfen, ob das untergeordnete Element ein zusammengesetztes Objekt ist, zur Warteschlange hinzufügen und weiter prüfen.
Bilder dalam einen Ordner speichern.

Kod Bespiel

Python

Copy import queue from spire.doc import * from spire.doc.common import * import os outputPath = "Bilder/" inputFile = "Beispiel.docx" if not os.path.exists(outputPath): os.makedirs(outputPath) #Document-Objekt erstellen document = Document() #Word-Dokument laden document.LoadFromFile(inputFile) #Warteschlange erstellen und Dokumentenelemente hinzufügen nodes = queue.Queue() nodes.put(document) #Liste erstellen images = [] #Dokumentenelemente durchlaufen while nodes.qsize() > 0: node = nodes.get() for i in range(node.ChildObjects.Count): #Untergeordnetes Objekt des Dokumentenelements abrufen child = node.ChildObjects.get_Item(i) #Prüfen, ob es ein Bild ist if child.DocumentObjectType == DocumentObjectType.Picture: picture = child if isinstance(child, DocPicture) else None dataBytes = picture.ImageBytes #Zur Liste hinzufügen images.append(dataBytes) #Prüfen, ob es ein zusammengesetztes Objekt ist elif isinstance(child, ICompositeObject): #Zur Warteschlange hinzufügen nodes.put(child if isinstance(child, ICompositeObject) else None) #Bilder speichern for i, item in enumerate(images): fileName = "Bild-{}.png".format(i) with open(outputPath+fileName,'wb') as imageFile: imageFile.write(item) document.Close()

Salin selepas log masuk

Masuk mod skrin penuh Keluar daripada mod skrin penuh Bilder Extrahierte

Der extrahierte Text wird mit angehängten Bewertungsinformationen gespeichert.

Ini adalah pengenalan menggunakan Spire.Doc untuk Python untuk mengekstrak teks dan imej daripada dokumen Word. Spire.Doc untuk Python menyokong banyak operasi dokumen lain. Semak tapak web rasmi atau sertai forum Spire.Doc.

Atas ialah kandungan terperinci Ekstrak teks dan imej daripada dokumen Word menggunakan Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!