Wie arbeitet die Texterkennung (OCR) im Computer

76e421fb527d4482912ef2cedfa4e87d

Was macht die Texterkennung?

Texterkennung bezeichnet in der Informationstechnik die automatisierte Texterkennung/ Schrifterkennung innerhalb von Bildern.

Der Begriff wird abgekürzt durch OCR (optical character recognition). In der Entstehungszeit dieser Technik wurde versucht, einzelne Buchstaben zu erkenn und zu Wörtern zusammenzufassen. Heute wird Texterkennung zunehmend durch neuronale Netze, die ganze Zeilen statt einzelner Zeichen verarbeiten, realisiert.

OCR-Software wird mit Rechtschreib- und Grammatik-Prüfprogrammen kombiniert, um automatisch Fehler zu entfernen. Es werden Methoden der Kontextanalyse (Intelligent Character Recognition , ICR) angewandt, mit denen die erkannten Text ggf. korrigiert werden können.

Anwendungen

Es gibt viele verschiedene Anwendungsmöglichkeiten für die elektronische Texterkennung.

  • Gewinnen von Textinformation aus Bilddateien
  • Erkennung von Merkmalen zur elektronischen Einsortierung eines Schriftstücks
  • Volltextsuche in PDFs und Bilder
  • Erkennung von Kfz-Kennzeichen
  • Erstellung von Dokumenten, das der gescannten Vorlage bezüglich Text-, Bild- und Tabellenanordnung möglichst nahekommt.
  • Blinde können sich eingescannte Texte auf Bilder vorlesen zu lassen

Verfügbare OCR-Software

Im Sektor Proprietäre Software ist hauptsächlich FineReader (ABBYY) und OmniPage (Kofax) zu nennen.

Freie Software

Es gibt viele verschiedenen Freie Projekte, die sich mit dem Thema Texterkennung beschäftigen. Am ausgereiftesten und sehr stark verbreitet ist die Software Tesseract. Tesseract wird von Ray Smith in Zusammenarbeit mit Google LLC entwickelt.

Fazit

Die Texterkennung in Computern, bekannt als Optical Character Recognition (OCR), ist ein Prozess, bei dem Text aus Bildern und gescannten Dokumenten in maschinenlesbaren Text umgewandelt wird. Dieser Prozess besteht aus mehreren Schritten:

  1. Bildvorverarbeitung: Bevor der eigentliche Texterkennungsprozess beginnt, wird das Bild vorverarbeitet, um die Genauigkeit zu erhöhen. Dies kann die Entfernung von Rauschen, die Korrektur von Verzerrungen, die Normalisierung von Beleuchtung und Kontrast sowie die Ausrichtung des Textes umfassen.
  2. Textlokalisierung und Segmentierung: Der OCR-Algorithmus identifiziert Bereiche des Bildes, die Text enthalten. Diese Bereiche werden dann in kleinere Einheiten segmentiert, normalerweise in Zeilen, Wörter und schließlich in einzelne Zeichen.
  3. Zeichenerkennung: Jedes segmentierte Zeichen wird dann mit einer Datenbank von bekannten Zeichenformen verglichen. Dies kann durch verschiedene Methoden erfolgen, wie z.B. Mustererkennung, neuronale Netze oder maschinelles Lernen. Der Algorithmus versucht, jedes Zeichen mit dem ähnlichsten Zeichen in der Datenbank abzugleichen.
  4. Post-Processing: Nachdem die Zeichen identifiziert wurden, erfolgt ein Nachbearbeitungsschritt, um Fehler zu minimieren. Dies kann das Überprüfen auf Rechtschreibfehler, die Anwendung von Sprachmodellen zur Erkennung von Kontext und die Anpassung von Zeichen, die falsch erkannt wurden, umfassen.
  5. Ausgabe: Das Endergebnis ist maschinenlesbarer Text, der weiter verarbeitet oder gespeichert werden kann.

Moderne OCR-Systeme sind ziemlich fortschrittlich und können Text mit hoher Genauigkeit erkennen, auch wenn das Bild von niedriger Qualität ist oder der Text in verschiedenen Schriftarten und Stilen vorliegt. Die Integration von künstlicher Intelligenz und maschinellem Lernen hat die Genauigkeit und Vielseitigkeit von OCR-Systemen weiter verbessert.