Vollständige Codedemonstration der Dokumentenanalyse mit Python und OCR (Code im Anhang)-Python-Tutorial-php.cn

Vollständige Codedemonstration der Dokumentenanalyse mit Python und OCR (Code im Anhang)

Beim Parsen von Dokumenten werden Daten in Dokumenten untersucht und nützliche Informationen extrahiert. Durch die Automatisierung kann eine Menge manueller Arbeit reduziert werden. Eine beliebte Parsing-Strategie besteht darin, Dokumente in Bilder umzuwandeln und Computer Vision zur Erkennung zu verwenden. Unter Dokumentbildanalyse versteht man die Technologie zur Gewinnung von Informationen aus den Pixeldaten des Bildes eines Dokuments. In manchen Fällen gibt es keine klare Antwort auf die erwarteten Ergebnisse (Text, Bilder, Diagramme, Zahlen, Tabellen, Formeln). ..).

Vollständige Codedemonstration der Dokumentenanalyse mit Python und OCR (Code im Anhang)

OCR (Optical Character Recognition, optische Zeichenerkennung) ist der Prozess der Erkennung und Extraktion von Text in Bildern durch Computer Vision. Es wurde während des Ersten Weltkriegs erfunden, als der israelische Wissenschaftler Emanuel Goldberg eine Maschine entwickelte, die Zeichen lesen und in Telegraphencodes umwandeln konnte. Mittlerweile hat das Gebiet ein sehr anspruchsvolles Niveau erreicht und vereint Bildverarbeitung, Textlokalisierung, Zeichensegmentierung und Zeichenerkennung. Im Grunde eine Objekterkennungstechnik für Text.

In diesem Artikel werde ich zeigen, wie man OCR zum Parsen von Dokumenten verwendet. Ich zeige einige nützliche Python-Codes, die problemlos in anderen ähnlichen Situationen verwendet werden können (einfach kopieren, einfügen, ausführen), und stelle einen vollständigen Quellcode-Download bereit.

Hier nehmen wir als Beispiel den Jahresabschluss im PDF-Format eines börsennotierten Unternehmens (Link unten).

https://s2.q4cdn.com/470004039/files/doc_financials/2021/q4/_10-K-2021-(As-Filed).pdf

Vollständige Codedemonstration der Dokumentenanalyse mit Python und OCR (Code im Anhang)

Text in diesem PDF erkennen und extrahieren, Grafiken und Tabellen

Umgebungseinstellungen

Das Ärgerliche an der Dokumentenanalyse ist, dass es so viele Tools für verschiedene Datentypen (Text, Grafiken, Tabellen) gibt und keines davon perfekt funktioniert. Hier sind einige der beliebtesten Methoden und Pakete:

Verarbeiten Sie Dokumente als Text: Verwenden Sie PyPDF2 zum Extrahieren von Text, verwenden Sie Camelot oder TabulaPy zum Extrahieren von Tabellen und verwenden Sie PyMuPDF zum Extrahieren von Grafiken.
Dokumente in Bilder konvertieren (OCR): Verwenden Sie pdf2image zur Konvertierung, PyTesseract und viele andere Bibliotheken zum Extrahieren von Daten oder verwenden Sie einfach LayoutParser.

Vielleicht fragen Sie sich: „Warum nicht die PDF-Datei direkt verarbeiten, sondern die Seiten in Bilder konvertieren?“ Der Hauptnachteil dieser Strategie ist das Kodierungsproblem: Dokumente können in mehreren Kodierungen vorliegen (z. B. UTF-8, ASCII, Unicode), sodass die Konvertierung in Text zu Datenverlust führen kann. Um dieses Problem zu vermeiden, verwende ich OCR und konvertiere die Seite mit pdf2image in ein Bild. Beachten Sie, dass die PDF-Rendering-Bibliothek Poppler erforderlich ist.

# with pip
pip install python-poppler
# with conda
conda install -c conda-forge poppler

Nach dem Login kopieren

Sie können die Datei einfach lesen:

# READ AS IMAGE
import pdf2imagedoc = pdf2image.convert_from_path("doc_apple.pdf")
len(doc) #<-- check num pages
doc[0] #<-- visualize a page

Nach dem Login kopieren

Genau wie in unserem Screenshot können Sie den folgenden Code verwenden, wenn Sie das Seitenbild lokal speichern möchten:

# Save imgs
import osfolder = "doc"
if folder not in os.listdir():
 os.makedirs(folder)p = 1
for page in doc:
 image_name = "page_"+str(p)+".jpg"
 page.save(os.path.join(folder, image_name), "JPEG")
 p = p+1

Nach dem Login kopieren

Abschließend müssen wir die CV-Engine einrichten, die wir verwenden werden verwenden. LayoutParser scheint das erste Allzweckpaket für OCR zu sein, das auf Deep Learning basiert. Zur Erfüllung dieser Aufgabe werden zwei bekannte Modelle verwendet:

Erkennung: Facebooks fortschrittlichste Objekterkennungsbibliothek (hier wird die zweite Version Detectron2 verwendet).

pip install layoutparser torchvision && pip install "git+https://github.com/facebookresearch/detectron2.git@v0.5#egg=detectron2"

Nach dem Login kopieren

Tesseract: Das bekannteste OCR-System, 1985 von Hewlett-Packard entwickelt und derzeit von Google entwickelt.

pip install "layoutparser[ocr]"

Nach dem Login kopieren

Jetzt können Sie das OCR-Programm zur Informationserkennung und -extraktion starten.

import layoutparser as lp
import cv2
import numpy as np
import io
import pandas as pd
import matplotlib.pyplot as plt

Nach dem Login kopieren

Erkennung

(Ziel-)Erkennung ist der Prozess, Informationselemente in einem Bild zu finden und sie dann mit einem rechteckigen Rahmen zu umgeben. Beim Parsen von Dokumenten handelt es sich bei den Informationen um Titel, Texte, Grafiken, Tabellen ...

Schauen wir uns eine komplexe Seite an, die einige Dinge enthält:

Vollständige Codedemonstration der Dokumentenanalyse mit Python und OCR (Code im Anhang)

Diese Seite beginnt mit einem Titel und hat einen Textblock. dann ein Diagramm und eine Tabelle, daher benötigen wir ein trainiertes Modell, um diese Objekte zu erkennen. Glücklicherweise ist Detectron dazu in der Lage, wir müssen hier nur ein Modell auswählen und seinen Pfad im Code angeben.

Vollständige Codedemonstration der Dokumentenanalyse mit Python und OCR (Code im Anhang)

Das Modell, das ich verwenden werde, kann nur 4 Objekte erkennen (Text, Titel, Liste, Tabelle, Grafik). Wenn Sie daher andere Dinge (wie Gleichungen) identifizieren müssen, müssen Sie andere Modelle verwenden.

## load pre-trained model
model = lp.Detectron2LayoutModel(
 "lp://PubLayNet/mask_rcnn_X_101_32x8d_FPN_3x/config",
 extra_config=["MODEL.ROI_HEADS.SCORE_THRESH_TEST", 0.8],
 label_map={0:"Text", 1:"Title", 2:"List", 3:"Table", 4:"Figure"})
## turn img into array
i = 21
img = np.asarray(doc[i])
## predict
detected = model.detect(img)
## plot
lp.draw_box(img, detected, box_width=5, box_alpha=0.2,
 show_element_type=True)

Nach dem Login kopieren

Vollständige Codedemonstration der Dokumentenanalyse mit Python und OCR (Code im Anhang)

结果包含每个检测到的布局的细节，例如边界框的坐标。根据页面上显示的顺序对输出进行排序是很有用的：

## sort
new_detected = detected.sort(key=lambda x: x.coordinates[1])
## assign ids
detected = lp.Layout([block.set(id=idx) for idx,block in
 enumerate(new_detected)])## check
for block in detected:
 print("---", str(block.id)+":", block.type, "---")
 print(block, end='nn')

Nach dem Login kopieren

Vollständige Codedemonstration der Dokumentenanalyse mit Python und OCR (Code im Anhang)

完成OCR的下一步是正确提取检测到内容中的有用信息。

提取

我们已经对图像完成了分割，然后就需要使用另外一个模型处理分段的图像，并将提取的输出保存到字典中。

由于有不同类型的输出（文本，标题，图形，表格），所以这里准备了一个函数用来显示结果。

'''
{'0-Title': '...',
'1-Text': '...',
'2-Figure': array([[ [0,0,0], ...]]),
'3-Table': pd.DataFrame,
}
'''
def parse_doc(dic):
 for k,v in dic.items():
 if "Title" in k:
 print('x1b[1;31m'+ v +'x1b[0m')
 elif "Figure" in k:
 plt.figure(figsize=(10,5))
 plt.imshow(v)
 plt.show()
 else:
 print(v)
 print(" ")

Nach dem Login kopieren

首先看看文字：

# load model
model = lp.TesseractAgent(languages='eng')
dic_predicted = {}
for block in [block for block in detected if block.type in ["Title","Text"]]:
 ## segmentation
 segmented = block.pad(left=15, right=15, top=5,
 bottom=5).crop_image(img)
 ## extraction
 extracted = model.detect(segmented)
 ## save
 dic_predicted[str(block.id)+"-"+block.type] =
 extracted.replace('n',' ').strip()
# check
parse_doc(dic_predicted)

Nach dem Login kopieren

Vollständige Codedemonstration der Dokumentenanalyse mit Python und OCR (Code im Anhang)

再看看图形报表

for block in [block for block in detected if block.type == "Figure"]:
 ## segmentation
 segmented = block.pad(left=15, right=15, top=5,
 bottom=5).crop_image(img)
 ## save
 dic_predicted[str(block.id)+"-"+block.type] = segmented
# check
parse_doc(dic_predicted)

Nach dem Login kopieren

Vollständige Codedemonstration der Dokumentenanalyse mit Python und OCR (Code im Anhang)

上面两个看着很不错，那是因为这两种类型相对简单，但是表格就要复杂得多。尤其是我们上看看到的的这个，因为它的行和列都是进行了合并后产生的。

for block in [block for block in detected if block.type == "Table"]:
 ## segmentation
 segmented = block.pad(left=15, right=15, top=5,
 bottom=5).crop_image(img)
 ## extraction
 extracted = model.detect(segmented)
 ## save
 dic_predicted[str(block.id)+"-"+block.type] = pd.read_csv(
 io.StringIO(extracted) )
# check
parse_doc(dic_predicted)

Nach dem Login kopieren

Vollständige Codedemonstration der Dokumentenanalyse mit Python und OCR (Code im Anhang)

正如我们的预料提取的表格不是很好。好在Python有专门处理表格的包，我们可以直接处理而不将其转换为图像。这里使用TabulaPy 包：

import tabula
tables = tabula.read_pdf("doc_apple.pdf", pages=i+1)
tables[0]

Nach dem Login kopieren

Vollständige Codedemonstration der Dokumentenanalyse mit Python und OCR (Code im Anhang)

结果要好一些，但是名称仍然错了，但是效果要比直接OCR好的多。

总结

本文是一个简单教程，演示了如何使用OCR进行文档解析。使用Layoutpars软件包进行了整个检测和提取过程。并展示了如何处理PDF文档中的文本，数字和表格。

Das obige ist der detaillierte Inhalt vonVollständige Codedemonstration der Dokumentenanalyse mit Python und OCR (Code im Anhang). Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!