Datum: | Software

Texterkennung mit Lupe

Gekritzelte Notizen oder der Sportteil aus der gedruckten Tageszeitung: Wenn es um die Verarbeitung analoger menschlicher Informationen geht, gerät jeder Computer irgendwann an seine Grenzen. An diesem Punkt kommt dann die optische Zeichenerkennung, kurz OCR, ins Spiel: Sie erkennt Texte aus eingescannten Dokumenten und Bildern automatisiert, sodass diese digitalisiert und bearbeitet werden können. In diesem Artikel erklären wir Ihnen, wie Texterkennung eigentlich funktioniert und stellen Ihnen die beste OCR-Software im Überblick vor.

  • Mit Hilfe der optischen Zeichenerkennung können Sie ausgedruckte Dokumente in durchsuchbare und editierbare Textdateien umwandeln.
  • OCR-Programme arbeiten in der Regel mit Wörterbüchern und sind dadurch in der Lage, verschiedene Sprachen zu identifizieren.
  • Eine gute Texterkennungssoftware muss nicht automatisch teuer sein. Im Internet gibt es auch viele Freeware-Programme, mit denen sich ausgezeichnete Ergebnisse erzielen lassen.

1. Was ist OCR-Software und wie funktioniert sie?

Mit OCR-Software vom Schreibblock auf den Computer.

Mit OCR-Software bringen Sie Ihre Texte vom Schreibblock auf den Computer.

OCR steht für „Optical Character Recognition“ (übersetzt: „Optische Zeichenerkennung“) und wird im Deutschen meist schlicht als „Texterkennung“ bezeichnet. Darunter versteht man eine Technologie, mit Hilfe derer handschriftliche oder gedruckte Dokumente (wie beispielsweise gescannte Seiten oder Visitenkarten) digitalisiert werden. Im Anschluss kann der Text elektronisch durchsucht, bearbeitet oder in einem kompakteren Format abgespeichert werden.

Damit die Informationen der papierbasierten Dokumente vom Computer verarbeitet werden können, reicht es nicht aus, diese einfach nur einzuscannen. In diesem Falle wäre es nämlich lediglich eine Bildkopie (eine sogenannte Rastergrafik) des Ursprungs-Dokumentes. Hier kommt nun die OCR-Software ins Spiel: Sie setzt die Ansammlung von schwarzen und weißen Punkten in mehreren Schritten zu Wörtern und logischen Sätzen zusammen. So wird aus Bild eine bearbeitbare und durchsuchbare Datei, die Sie von Ihrer Festplatte oder online über die Cloud aufrufen und dort mit einem Textverarbeitungsprogramm bearbeiten können.

Gut zu wissen: Auch für die Klassifizierung von (unstrukturierten) Dokumenten ist der Volltext der OCR erforderlich. Dazu erkennt die Software die Attribute, Daten sowie einzelne Kategorien eines Dokumentes und bestimmt anhand dieser automatisch dessen Art.

2. Die besten Texterkennungsprogramme für 2019 im Vergleich

Vor nicht allzu langer Zeit war OCR-Software noch sehr teuer und kompliziert in Ihrem Handling. Mittlerweile zählt Sie aber längst zu den Produktivitäts-Tools und es gibt auch für private Nutzer eine große Auswahl leistungsstarker Programme zu einem adäquaten Preis. In diesem Abschnitt haben wir die besten Texterkennungsprogramme von Freeware bis Profi-Tool für Sie zusammengetragen.

2.1. FreeOCR

FreeOCR ist ein kostenloses Texterkennungsprogramm für Windows, das auf der Open-Source-OCR-Engine Tesseract basiert. Das Tool erkennt Text von PDF- und TIFF-Dateien und kann auch gescannte Dokumente und die gängigen Bildformate (z.B. BMP, JPEG, GIF oder PNG) öffnen. Bei der Digitalisierung wird ausschließlich der Text berücksichtigt, Formatierungen werden ignoriert. Die Ausgabedateien werden in einem Fenster angezeigt und können von dort editiert, in die Zwischenablage kopiert, als RTF gespeichert oder direkt in Microsoft Word exportiert werden. Neben deutschen Texten kann FreeOCR auch englische, spanische oder französische Inhalte erkennen.

FreeOCR Screenshot der Bentuzeroberfläche

Übersichtlich und gut strukturiert: Die Benutzeroberfläche von FreeOCR.

Gut zu wissen: Tesseract unterstützt zahlreiche Sprachen und Schriftsysteme, darunter zum Beispiel auch viele asiatische Frakturschriften. Sollte ein Sprachpaket in FreeOCR noch nicht enthalten sein, können Sie es einfach von der Tesseract-Seite nachinstallieren. Eine entsprechende Anleitung liefert der Hersteller dort auch gleich mit.

Für die Digitalisierung des Textes verwendet das Tool eine Mustererkennung. Sie können auch einzelnen Passagen oder Ausschnitte auswählen. Das ist beispielsweise dann sehr hilfreich, wenn Sie bestimmte Textteile einer Seite ausschließen möchten.

2.2. Abbyy FineReader

Der Abbyy FineReader ist ein leistungsstarkes Komplettpaket, mit dem eine ganzheitliche Bearbeitung der Papierkorrespondenz in Unternehmen möglich ist. Die Anwendung bietet zahlreiche Funktionen, wie beispielsweise Scan- und Konvertier-Werkzeuge und verschiedene OCR-Tools, mit denen Sie Dokumente ganz ohne den Einsatz von Zusatzsoftware Digitalisieren und Verwalten können. Die Texterkennungssoftware lässt sich in sämtliche Microsoft-Office-Anwendungen einbinden und liefert eine Orginal-Ansicht der erkannten Dokumente an Word.

Abbyy FineReader OCR-Software Scan

Der Abbyy FineReader ist ein PDF-Programm mit integrierter OCR-Funktionalität.

Das Tool ist mit einer ADTR („Adaptive Document Recognition Technology“) ausgestattet, die die Struktur und Formatierung mehrseitiger Dokumente rekonstruiert und in der neuen Textdatei abbildet. Dadurch sollen Abtippen und Neuformatieren laut Hersteller zukünftig der Vergangenheit angehören. FineReader unterstützt 189 Sprachen und zahlreiche Formate wie PDF, HTML, DOC/DOCX, RTF, Word XML, DBF, CSV, TXT oder ODT. Überdies lassen sich damit auch Texte aus Bildern extrahieren. Diese können Sie anschließend mit den integrierten Werkezeugen bearbeiten und beispielsweise Einstellungen zu Kontrast und Helligkeit vornehmen oder Bewegungsunschärfen und ISO-Rauschen entfernen.

Abbyy FineReader Bearbeitungsmöglichkeiten

Das Programm konvertiert Dokumente für die Langzeitarchivierung in durchsuchbare PDF- und PDF/A-Dateien.

Ein weiteres praktische Feature ist auch die Option, Makros und automatisierte Tasks einzurichten, mit denen Sie z.B. wiederkehrende Aufgaben schneller erledigen oder Dokumenten individuelle Speicherorte zuweisen können.

Die aktuelle Version des Abbyy FineReader wird in den drei Versionen

  • Standard
  • Corporate
  • Enterprise (Volumenlizenzen)

angeboten. Diese unterscheiden sich vor allem hinsichtlich der Konvertierungsprozesse und der Automatisierungsmöglichkeiten.

2.3. OmniPage Ultimate

Auch der Text-Scanner OmniPage Ultimate richtet sich mit seinen Konvertierungsfunktionen und der Cloud-Anbindung vor allem an Unternehmen. Die Anwendung verfügt über eine sehr hohe OCR-Genauigkeit und erkennt das gesamte Layout, unabhängig davon, ob es Tabellen, Spalten, Grafiken oder Nummerierungen enthält. Das Tool unterstützt alle gängigen Office-Anwendungen und mehr als 120 verschiedene Sprachen. Für die Digitalisierung können Sie jeden handelsüblichen Scanner (mit TWAIN-, WIA- oder ISIS-Treiber) verwenden oder die Dokumente alternativ abfotografieren.

Darüber hinaus verfügt OmniPage Ultimate über zahlreiche weitere Features, wie beispielsweise das Hervorheben einzelner Passagen mittels Stichwortauswahl oder das automatische Schwärzen bestimmter Textteile (z.B. persönliche Daten). Die Einstellungen dafür müssen lediglich einmal vorgenommen werden, das Tool merkt sich Ihre getätigten Angaben.

OmniPage Ultimate kann Bild-Dateien in den Formaten TIFF, PCX, DCX, BMP, JPG, GIF, PNG und MAX verarbeiten und entschlüsselt außerdem PDF-Dateien.

Besonders praktisch: Mit Hilfe der integrierten Sprachtechnologie können Sie sich Ihre Dokumente auf MP3-kompatiblen Geräten sogar vorlesen lassen.

2.4. ReadIris

ReadIris ist eine OCR-Software, die vor allem durch ihre vereinfachte Benutzeroberfläche und einem hohen Bedienkomfort punkten kann. Der Fokus liegt dabei auf den vier Kernfunktionen

  • Importieren
  • Organisieren
  • Konvertieren
  • Bearbeiten

Entsprechende Felder leiten Sie zu der jeweiligen Funktion weiter, für die Ausführung der einzelnen Schritte sind dann nur wenige Klick erforderlich.

Die OCR-Software ReadIris unterstützt viele Sprachen

ReadIris unterstützt mehr als 130 Sprachen, darunter auch Russisch und Arabisch.

ReadIris unterstützt mehr als 130 Sprachen (darunter auch Russisch, Chinesisch und Arabisch) konvertiert Bilder, PDF-Dateien, MS-Office-Dokumente und eingescannte Dateien und wandelt diese auf Wunsch in PDF, XLSX, DOCX, ODT, ePub, RTF, HTML, TXT, TIFF, JPEG, PNG oder Audio um. Das ursprüngliche Layout der Datei bleibt bei der Umwandlung erhalten.

Der Hersteller bietet die Software in den drei Versionen PDF, Pro und Corporate an, wobei nur letztere über Zusatzfunktionen wie das Schützen und Signieren von PDFs oder die Stapelverarbeitung von Dokumenten verfügt. Alle drei Varianten sind aber mit praktischen Editier-Funktionen wie der Nachbelichtung oder Fleckenentfernung ausgestattet, mit denen sich die Qualität der eingescannten Dokumente deutlich verbessern lässt.

Screenshot von ReadIris Corporate

In ReadIris Corporate können Sie Ihre Dokumente auch mit digitalen Signaturen versehen.

ReadIris besitzt außerdem ein eigenes Scanmodul und ist dadurch auch ohne externe Software mit allen TWAIN-Scannern (z.B. von Brother, Canon oder HP) kompatibel. Es gibt sowohl eine Windows- als auch eine Mac-Version der OCR-Software.

Tipp: Wenn Sie mit Google Docs arbeiten, benötigen Sie keine zusätzliche OCR-Software, denn die Cloud-Office-Lösung beinhaltet auch einen kostenlosen Konverter. Um die Online-Texterkennung anzuwenden, müssen Sie lediglich das gewünschte Dokument in Google Drive hochladen und mit der rechten Maustaste auf den Dateinamen klicken und anschließend im Kontextmenü „Öffnen mit -> Google Docs“ auswählen. Damit wird ein Docs-Dokument (im selben Verzeichnis) erstellt und die OCR-Funktion automatisch darauf angewendet.

49 Bewertungen

1 Stern2 Sterne3 Sterne4 Sterne5 Sterne Ø 4,78
Loading...

Hinterlasse eine Antwort

(wird nicht veröffentlicht)

Nutzungsrichtlinien beachten