OCR-Nachbereitung. Manuell, automatisch, LLMs

5. OCR-Nachbereitung. Manuell, automatisch, LLMs#

OCR-Nachbearbeitung und Qualitätsverbesserung

  1. Verschiedene Verfahren der OCR-Nachbearbeitung können beschrieben und deren Einsatzzwecke unterschieden werden.

  2. Regelbasierte Ansätze zur OCR-Nachkorrektur können beschrieben und deren Auswirkungen auf die OCR-Qualität anhand von Metriken erläutert werden.

  3. Die grundlegenden Herausforderungen beim Einsatz von Large Language Models für die OCR-Nachbearbeitung können beschrieben werden.

Im vorigen Kapitel haben wir die Scans der Zeitungen per OCR automatisch in Klartext umgewandelt. In diesem Kapitel werden wir die Ergebnisse der OCR nachbearbeiten.

../_images/flow-chart_ocr-postprocessing.jpeg

Fig. 5.1 Flussdiagramm der Fallstudie. Wir befinden uns im vierten Arbeitspaket.#

Wie Sie bereits wissen, sind OCR-Ergebnisse selten perfekt. Dies gilt insbesondere für historische Texte. Daher ist in der Regel eine Nachbearbeitung erforderlich, um die üblichen Fehler zu korrigieren.