ARTICLE

OCR: Optical Character Recognition für Texterkennung

OCR: Optical Character Recognition für Texterkennung
SHARE ARTICLE

Durch innovative Technologien wie Robotic Process Automation (RPA) und Künstliche Intelligenz (KI) verschieben sich für die Unternehmen kontinuierlich die digitalen Grenzen. Eingebremst werden die Unternehmen dabei vorwiegend durch die vielen Informationen, die nach wie vor in papierbasierten, analogen Formaten generiert und gespeichert werden. Die Lösung des Problems, um aus analogen Dokumenten digitale Dateiformate zu machen, ist die Optische Zeichenerkennung (OCR - Optical Character Recognition). Die Nutzung von OCR-Systemen ist einer der ersten Schritte in Richtung Automatisierung. Dabei ist OCR beileibe nicht neu. Wer in einem Büro arbeitet, das mit einem modernen Drucker ausgestattet ist, hat höchstwahrscheinlich schon einmal mit OCR zu tun gehabt. Aber wofür steht OCR eigentlich. Wofür kann es verwendet werden? Und wie funktioniert es überhaupt? Die Antwort auf diese Fragen ist deshalb so wichtig, weil derjenige, der weiß, wie OCR funktioniert, die Fähigkeiten von OCR im Rahmen der Automatisierungs- und Prozessoptimierung voll ausreizen kann.

OCR – vom analogen zum digitalen Dokument

OCR ist eine weit verbreitete Technologie zur Automatisierung der Textextraktion aus Dokumenten oder einer bildbasierten PDF-, TIFF- oder JPG-Datei und der Umwandlung des extrahierten Textes in maschinenlesbare Textformen. OCR-Software verarbeitet ein digitales Bild, indem sie Zeichen, wie Buchstaben, Zahlen und Symbole sucht und erkennt und in bearbeitbaren Text transformiert. OCR ist eine Technologie, mit der aus analogen digitale Dokumente werden. Wenn OCR ein Wort scannt, erkennt der Algorithmus bestimmte Teile oder Formen eines digitalisierten Bildes wie z.B. die Buchstaben, aber er versteht die Bedeutung des Wortes nicht. Fortgeschrittene OCR-Software kann auch die Größe und Formatierung des Textes sowie das Layout des Textes extrahieren und exportieren. Nachdem ein Dokument mit OCR-Technologie verarbeitet wurde, können die Textdaten problemlos bearbeitet, durchsucht, indiziert und aufgerufen werden. Die digitalisierten Dokumente können auch in ZIP-Dateien komprimiert werden, Schlüsselwörter können hervorgehoben oder in eine Website eingebunden werden.

Wie funktioniert OCR?

Die grundlegenden Schritte sind Bildaufnahme, Vorverarbeitung, Segmentierung, Merkmalsextraktion, Klassifizierung und Nachverarbeitung. Im ersten Schritt werden die physischen Texte gescannt und kopiert und von der OCR-Software in eine Binärversion konvertiert. Im nächsten Schritt analysiert die Software die gescannten Bilder auf helle und dunkle Bereiche. Helle Bereiche werden als Hintergrund und dunkle Bereiche als geschriebene Zeichen erkannt. Als nächstes verarbeitet das Programm die dunklen Bereiche, um alphabetische Buchstaben, numerische Ziffern und Symbole zu finden. Es gibt verschiedene Techniken für OCR-Software, aber die meisten beziehen sich auf ein Zeichen, ein Wort oder einen Textblock.

Zwei Methoden – ein Ziel

Bevor eine OCR-Software reibungslos arbeitet, muss sie eine Mustererkennung durchlaufen. Bei dieser Methode wird das Programm mit Textbeispielen in verschiedenen Schriftarten und Formaten gefüttert, die dann verwendet werden, um Zeichen im gescannten Text zu erkennen und zu vergleichen.

Eine andere Methode ist die Merkmalserkennung. Hierbei werden bestimmte Merkmale von Buchstaben, Zahlen oder Symbolen verwendet, um Zeichen im gescannten Bild zu erkennen. Merkmale könnten die Anzahl von abgewinkelten Linien, Kreuzlinien oder Kurven in einem geschriebenen Zeichen sein. Für den Großbuchstaben „A“ könnten das zwei diagonale Linien, die sich mit einer horizontalen Linie in der Mitte treffen, sein. Wenn dann Zahlen und Zeichen identifiziert wurden, können sie in einen ASCII-Code (American Standard Code for Information Interchange) umgewandelt werden - das gebräuchlichste Format für Textdateien in Computern und im Internet.

Vertrauen ist gut, Kontrolle ist besser

Sobald der Text mittels OCR verarbeitet wurde, sollte er daraufhin aber noch einmal überprüft werden, ob der Prozess erfolgreich war und der Text korrekt und vollständig extrahiert und umgewandelt wurde. Die Erkennungsgenauigkeit liegt zwar bei 99 Prozent, aber das eine Prozent kann theoretisch einen gravierenden Fehler beinhalten, wenn beispielsweise das Komma in der Preisangabe im Originaldokument nicht erkannt wurde. Ein schlechter Kontrast oder unscharfe Zeichen im Original beeinflussen die Erkennungsgenauigkeit erheblich. Gleichwohl kann die Genauigkeit aber verbessert werden, wenn OCR mit einem Lexikon gekoppelt wird, so dass der Algorithmus auf eine Liste von Wörtern zurückgreifen kann, die im gescannten Text vorkommen.

Vorteile von OCR

OCR-Lösungen verbessern die Zugänglichkeit von Informationen für Benutzer. Bevor OCR-Software verfügbar war, bestand die einzige Möglichkeit, gedruckte Papierdokumente zu digitalisieren, darin, den Text manuell erneut einzugeben. Das war nicht nur enorm zeitaufwendig, sondern auch mit Ungenauigkeiten und Tippfehlern verbunden.

Die ersten erfolgreichen Schritte mit OCR-Software hat das Finanzwesen unternommen. Die charakteristische Schriftart, die für die Konto- und Bankleitzahl auf Schecks verwendet wird - genannt OCR-A - kann man heute noch auf den Bankschecks bewundern. Sie wurde so konzipiert, dass jeder Buchstabe und jede Zahl von den anderen unterscheidbar ist. Populär wurde die OCR-Technologie in den frühen 1990er Jahren, als der Versuch unternommen wurde, historische Zeitungen zu digitalisieren.

OCR spart Zeit und Ressourcen

Seitdem hat die Technologie mehrere Verbesserungen erfahren. Heutzutage liefern Lösungen nahezu perfekte Ergebnisse. Fortschrittliche Methoden, wie beispielsweise zonales OCR, werden verwendet, um komplexe dokumentenbasierte Workflows zu automatisieren. Unternehmen, die OCR-Funktionen zum Konvertieren von Bildern und PDFs verwenden, sparen Zeit und Ressourcen, die für die manuelle Verarbeitung nicht durchsuchbarer Daten erforderlich wären. Nach der Übertragung können OCR-verarbeitete Textinformationen von Unternehmen einfacher und schneller maschinell verwendet werden. Das bedeutet eine Fehlerreduktion bei der Datenübertragung, eine enorme Ressourceneinsparung und eine verbesserte Produktivität. Dank OCR-Software können Unternehmen nicht nur analoge Dokumente digital speichern und besser organisieren, sondern auch dokumentbasierte Workflows, die oftmals stark auf PDF-Formate zurückgreifen, für die Datenextraktion und anschließende Automatisierung vorbereiten. Dazu aber später mehr!

Vom bedruckten Papier zum maschinenlesbaren Dokument

OCR ist eine Technologie, die hinter vielen bekannten Systemen und Diensten unseres täglichen Lebens steckt. Weniger bekannten Anwendungsfälle sind die Automatisierung der Dateneingabe, die Indexierung von Dokumenten für Suchmaschinen, die automatische Nummernschilderkennung sowie die Unterstützung blinder und sehbehinderter Personen. Der wohl bekannteste Anwendungsfall für OCR ist die Umwandlung gedruckter Papierdokumente in maschinenlesbare Textdokumente. Sobald ein gescanntes Dokument die OCR-Software durchlaufen hat, kann der Text des Dokuments mit Textverarbeitungsprogrammen wie Microsoft Word oder Google Docs verarbeitet werden.

Mehr Transaktionssicherheit für Banken

Am häufigsten wird OCR von Banken eingesetzt, um die Transaktionssicherheit und das Risikomanagement zu verbessern. Mittels OCR können wichtige handschriftliche Garantiedokumente von Kunden wie z. B. Kreditunterlagen eingescannt werden. Die International Bank Account Number (IBAN) dient der grenzüberschreitenden Identifizierung von Bankkonten. Die IBAN kann unterschiedlich lang sein und sowohl aus Zahlen als auch aus Buchstaben bestehen. Um grenzüberschreitende Transaktionen zu erleichtern, können Banking-Apps mit integrierter OCR-Software die IBAN für eine weitere Abwicklung der Transaktion scannen, anstatt sie mühsam einzugeben. Verschiedene Anbieter bieten spezielle anwendungsorientierte OCR-Systeme an, die beispielsweise auf Geschäftsregeln, Standardausdrücke oder umfangreiche Brancheninformationen zurückgreifen.

Vereinfachte Dateneingabe und Datenkategorisierung

OCR kann für eine Vielzahl von Dateneingabe- und Datenkategorisierungsaufgaben verwendet werden. So kann die Dateneingabe von Geschäftsdokumenten automatisiert werden, indem gedruckte Kopien von juristischen oder historischen Dokumenten in PDF-Dateien umgewandelt werden, die dann bearbeitet, formatiert und durchsucht werden können. OCR kann aber auch zur Datenkategorisierung herangezogen werden, um beispielsweise das Sortieren von Briefen für die Postzustellung zu automatisieren oder Schecks elektronisch einzuzahlen, ohne dass ein Bankschalter erforderlich ist.

Datenindexierung und Mustererkennung

Weitere Anwendungsfälle sind das Hinzufügen von zertifizierten Rechtsdokumenten in eine elektronische Datenbank und die Indexierung von Druckmaterial für Suchmaschinen oder die Nutzung in Sicherheitskameras zur Erkennung von Nummernschildern. Von der Erfassung von Visitenkarten bis hin zum Extrahieren eingehender Rechnungen aus Lieferanten-E-Mails sind optische Zeichenerkennungssysteme darauf spezialisiert, Ausdrucke durch Mustererkennung und elektronische Erfassung visueller Informationen in Pixel umzuwandeln. OCR wird in der Rechnungsverarbeitung schon seit langem verwendet, um Mitarbeiter von der mühsamen erneuten Eingabe von Rechnungsdaten zu befreien, und ist eine Schlüsselkomponente umfassenderer Automatisierungslösungen.

Mit OCR und RPA zur Prozessoptimierung

OCR ist zudem ein Schlüsselelement für jede gute RPA-Lösung. Es geht darum, unstrukturierte Daten aus gescannten oder zugesandten Textvorlagen in strukturierte, digitalisierte Daten umzuwandeln, die wiederum in digitale Geschäftsprozesse einfließen können, ohne dass ein manueller Eingriff erforderlich ist. Damit versetzt OCR in Verbindung mit RPA Unternehmen in die Lage, operative Geschäftsprozesse, die noch stark durch ausgefüllte Formulare geprägt sind, in einem wesentlich größeren Umfang zu automatisieren. Die mit OCR gewonnenen Daten können dann an die unterschiedlichen Unternehmensanwendungen wie CRM, ERP oder Legacy-System weitergeleitet werden. Eine vollständig in den Workflow komplexer Geschäftsprozessautomatisierungen eingebettete OCR-Engine kann die zeitintensiven Aufgaben beispielsweise im Zusammenhang mit der manuellen Verarbeitung von Rechnungen in lesbare Daten automatisieren.

Was hat NLP mit OCR zu tun?

Für nicht strukturierte Dokumente hat sich eine Kombination aus OCR-Tool und Natural Language Processing (NLP) als erfolgreich erwiesen. Sie verbessert die Lesbarkeit von Dokumenten, ohne den Kontext, das Format zu kennen oder regionalen Slang, berücksichtigt abgekürzte Wörter, kurze Texte oder sogar Hashtags. Diese Lösungen verfügen über einen schnellen Build-Engineering-Kern und bieten eine gute Assimilation von Daten. Auf den Punkt gebracht hilft NLP, die Wortgenauigkeit zu verbessern, indem falsche Wörter durch richtige ersetzt werden.

Denn NLP ist Bestandteil der Künstlichen Intelligenz (KI) und befähigt Computer, menschliche Sprache so aufzunehmen, zu verarbeiten und zu verstehen, wie sie gesprochen und geschrieben wird. Dabei bedient sich NLP zweier Techniken: der Syntaxanalyse und der Semantikanalyse. Im Rahmen der Syntaxanalyse bewertet NLP die Bedeutung einer Sprache basierend auf grammatikalischen Regeln. Die Semantikanalyse arbeitet mit Algorithmen, um die Bedeutung und Struktur von Sätzen zu verstehen.

ICR erkennt auch krakelige Handschriften

Viele Unternehmen haben mit großen Mengen von Verbrauchern ausgefüllter handschriftlicher Formulare wie Registrierungsformulare und Kreditanträge zu kämpfen, die gescannt, digitalisiert und transkribiert werden müssen. Aber selbst handschriftliches Gekrakel und unterschiedliche Handschriftenstile oder Schriftarten sind mittlerweile für die optische Zeichenerkennung kein sonderlich großes Problem mehr. Intelligent Character Recognition (ICR), die logische Weiterentwicklung von OCR, verwendet neuronale Netze, eine Technologie des Maschinellen Lernens (ML), um im Laufe der Zeit zu lernen und sich selbst zu korrigieren. Dazu nutzen neuronale Netze riesige Mengen handschriftlicher Trainingsdaten mit einer Vielzahl unterschiedlicher Stile und Formate und vergleichen dann jedes Zeichen mit den Trainingsdaten, um die beste Übereinstimmung und die genaueste Transkription zu finden. Dabei analysiert und bewertet ICR das Scanergebnis auch hinsichtlich des semantischen Zusammenhangs. ICR prüft innerhalb des Textes, ob es inhaltlich sinnvoll ist, einen bestimmten Buchstaben zu verwenden. So kann ICR sogar handschriftliche Notizen erkennen, die kein Mensch mehr lesen kann.  

Durchgängige Automatisierung des Transkriptionsprozesses

Durch die Verwendung von ICR zum Digitalisieren handschriftlicher Formulare und Dokumente können Unternehmen den Transkriptionsprozess durchgängig automatisieren und damit erheblich beschleunigen und vereinfachen. Mit ICR und OCR können jetzt auch vorhandene Papierarchive und wichtige Inhalte historischer Dokumente in Frakturschrift, die vom Verfall bedroht sind, geschützt und rechtssicher zugänglich gemacht werden. Firmen wie beispielsweise das Ahnenforschungsportal Ancestry machen sich dies zu Nutze, um historische Dokumente für die persönliche Recherche der Mitglieder zugängig zu machen, ohne das diese in stundenlanger Arbeit Dokumente nach Informationen durchsuchen müssen. OCR/ICR eignen sich auch für den Einsatz bei Sortierungsvorgängen im Posteingang. Selbst handschriftliche Vermerke auf Briefumschlägen oder anderen Versandstücken können erkannt und entsprechend weitergeleitet werden.  

OCR-Tools, die Du kennen solltest

Die bedeutendsten OCR-Lösungen sind Adobe Acrobat Pro DC, OmniPage Ultimate, Abbyy FineReader, Readiris und Rossum. Während in der Vergangenheit dem papierlosen Büro noch die Menge der noch zu scannenden Dokumente im Wege stand, können moderne OCR-Tools Dokumente sowohl einzeln als auch in Stapeln scannen, wodurch der Prozess wesentlich effizienter wird.

Adobe Acrobat Pro DC

Adobe Acrobat Pro DC bietet eine umfangreiche Liste von Optionen. Das DC steht für Document Cloud. Anwender können also von jedem beliebigen Computer aus auf ihre Dateien zugreifen. Die Pro-Version bietet über die OCR Basisfunktionen hinaus auch die Möglichkeit, Dokumente mit Kommentaren zu versehen und stellt spezielle Werkzeuge bereit, mit denen Tabellen gescannt und Dokumente miteinander verglichen werden können. Bereits wenige Sekunden, nachdem sie eingescannt wurden, lassen sich die Dokumente direkt auf dem Bildschirm als PDF-Dateien bearbeiten.

OmniPage Ultimate

OmniPage Ultimate bietet eine Vielzahl an Eingabe-, Ausgabe- und Workflow-Optionen, die weit über das hinausgehen, was man normalerweise erwarten würde. Man kann einzelne Papierdokumente oder auch Papierstapel schnell und einfach in jede beliebige digitale Dateiform umwandeln. OmniPage Ultimate überzeugt mit einer hohen Konvertierungsgenauigkeit. Es lassen sich individuelle Arbeitsabläufe einrichten, so dass Dokumente je nach Bedarf automatisch im richtigen Format an die richtige Stelle geliefert werden.

Abbyy FineReader

Abbyy hat im Laufe der vergangenen Jahre einen umfassenden Werkzeugkasten zur Verwaltung von Textdateien entwickelt, mit dem sich Papierdokumente scannen, organisieren und digitalisierte Dokumente erstellen lassen. Neben der Textkonvertierung in alle gebräuchlichen Formate können Textdateien in der Unternehmensversion auch verglichen und mit Kommentaren versehen werden.

Readiris

Readiris setzt auf eine ausgefeilte Benutzeroberfläche und bietet viele nützliche Funktionen. Readiris unterstützt eine Vielzahl an Dateiformaten und bietet die Option, sich Text vorlesen zu lassen. Zudem lassen sich mit Readiris gescannte Dokumente mit Signaturen und einen Sicherheitsschutz für fertige digitale Dokumente sowie Wasserzeichen, Kommentar- und Annotationsfunktionen versehen.

Rossum

Rossum hat sich auf das Scannen und Digitalisieren von Rechnungen spezialisiert und adressiert mit seiner OCR-Lösung damit vor allem Unternehmen, die immer noch mit einer großen Anzahl von Papierrechnungen arbeiten und vorwiegend Zahlen schnell und einfach extrahieren müssen. Die OCR-Lösung von Rossum bedient sich dabei nicht eines Vorlagenformats, sondern setzt auf den Einsatz Künstlicher Intelligenz, um wichtige Informationen zu scannen.

Fazit

Unternehmen, die sich von der papierbasierten Dokumentation und den damit verbundenen Kosten, von Umweltbelastungen und Ineffizienz befreien möchten, verwenden OCR, um vorhandene Informationen zu digitalisieren und neue Workflows zu erstellen, die neue Informationen automatisch erfassen und speichern. KI und ML werden erwartungsgemäß das Scannen und die Zeichenerkennung verändern. Diese Kombination ermöglicht es, Daten zu analysieren und Systemen beizubringen, Unstimmigkeiten in großen Datensätzen zu erkennen. KI-gesteuerte OCR-Technologien können nicht nur dabei helfen, Volltexte zu digitalisieren, sondern auch den Kontext solcher Texte zu verdauen und zu verstehen, um wertvolle Ressourcen für die Organisation zu sparen.

Mit OCR und Co. in die Automatisierung starten!

Mehr erfahren!OCR: Optical Character Recognition für Texterkennung
More articles like this