4. OCR. Von Bild zu Text#
OCR-basierte Korpuserstellung und Qualitätsbewertung
Der Prozess der Optical Character Recognition (OCR) für die Korpuserstellung kann beschrieben und Tools zur Durchführung der OCR aufgezählt werden.
Die notwendigen Schritte zur Verarbeitung ein- und mehrseitiger PDFs zu Text können aufgezählt und die Unterschiede zwischen Ursprungs- und Zielformat erklärt werden.
Die grundlegenden Metriken zur OCR-Qualitätsevaluation (Präzision, Recall, F1-Score) können erläutert und deren Bedeutung für die Bewertung von OCR-Systemen beschrieben werden.
Die Schritte zur Qualitätsmessung eines OCR-Outputs können aufgezählt und die Qualitätsmaße interpretiert werden.
Nach dem vorherigen Kapitel haben wir also ein Korpus als Sammlung gescannter Bilder. Ein Korpus in dieser Form ist jedoch noch nicht maschinenlesbar und kann nicht direkt verarbeitet werden. In diesem Kapitel lernen wir, wie man mit OCR Bilder in Text umwandelt.
Fig. 4.1 Flussdiagramm der Fallstudie. Wir befinden uns im dritten Arbeitspaket.#
Zunächst werden wir lernen, was OCR ist, warum wir es brauchen und wie es funktioniert. Außerdem werden wir einen Überblick über einige OCR-Tools geben.
Anschließend werden wir OCR in Python mit PyTesseract durchführen, einem kostenlosen und quelloffenen OCR-Tool.
Schließlich werden wir die Metriken kennenlernen, die zur Messung der OCR-Qualität verwendet werden, und Qualitätsmessungen durchführen.