5. OCR-Nachbereitung. Manuell, automatisch, LLMs#
OCR-Nachbearbeitung und Qualitätsverbesserung
Verschiedene Verfahren der OCR-Nachbearbeitung können beschrieben und deren Einsatzzwecke unterschieden werden.
Regelbasierte Ansätze zur OCR-Nachkorrektur können beschrieben und deren Auswirkungen auf die OCR-Qualität anhand von Metriken erläutert werden.
Die grundlegenden Herausforderungen beim Einsatz von Large Language Models für die OCR-Nachbearbeitung können beschrieben werden.
Im vorigen Kapitel haben wir die Scans der Zeitungen per OCR automatisch in Klartext umgewandelt. In diesem Kapitel werden wir die Ergebnisse der OCR nachbearbeiten.
Fig. 5.1 Flussdiagramm der Fallstudie. Wir befinden uns im vierten Arbeitspaket.#
Wie Sie bereits wissen, sind OCR-Ergebnisse selten perfekt. Dies gilt insbesondere für historische Texte. Daher ist in der Regel eine Nachbearbeitung erforderlich, um die üblichen Fehler zu korrigieren.