PDF Tools OCR Add-On - Texterkennung in PDF Dokumenten

Das 3-Heights™ OCR Enterprise Add-On ergänzt diverse 3-Heights™ Produkte mit einer Texterkennung. Damit können gescannte Dokumente im Volltext durchsuchbar gemacht werden. Mit dem 3-Heights™ OCR Enterprise Add-On können selbst grösste Bestände an Daten in hoher Qualität und Geschwindigkeit in im Volltext durchsuchbare PDF- oder PDF/A-Dateien konvertiert werden. Eine Vielzahl an Sprachen wird unterstützt. Das Add-On gewährleistet damit eine zuverlässige OCR-Funktionalität, in perfektem Zusammenspiel mit dem entsprechenden Basisprodukt.
Funktion

Auf der Basis des ABBYY FineReader Engine erkennt das 3-Heights™ OCR Enterprise Add-On Textinhalte und bettet diese als Unicode-Text in die PDF- und PDF/A-Datei ein. Damit sind die PDF-Dateien im Volltext durchsuchbar. Zahlreiche Optionen für Bildmanipulation, -vorverarbeitung und Texterkennung ermöglichen einen Erkennungsprozess, der optimal gemäss Ihren Bedürfnissen gestaltet werdne kann. Fast 200 Sprachen werden unterstützt, für mehr als 50 Sprachen sind erweiterte Unterstützungsmechanismen eingebaut mit Wörterbüchern und morphologischen Werkzeugen.
Architektur und Anwendungsvarianten

Das 3-Heights™ OCR Enterprise Add-On ist mit folgenden Produkten verwendbar: 3-Heights™ Image to PDF Converter, 3-Heights™ PDF to PDF/A Converter und 3-Heights™ Document Converter Service verwendet werden. Nebst der aktuellen Windows-Version ist auch eine Linux-Version in Vorbereitung.  Das Add-On wird via API, Befehlszeile oder Windows-Dienst des Basisproduktes angesprochen. Die Optionen die für den Erkennungsprozess benötigt werden können zu Profilen zusammengefasst werden. Dies gewährleistet eine ideale Abstimmung auf die Texte, die erkannt werden müssen.
Eigenschaften und Nutzen

Je nach Bedürfnis kann beim Add-On eine optimale Erkennungsrate oder eine hohe Geschwindkeit im Erkennungsprozess festgelegt werden. Es bestehen im Add-On selbst keinerlei Seitenlimiten, womit auch grösste Dokumentenvolumen im Volltext durchsuchbar gemacht werden können. Spätere Versionen werden auch ein Load Balancing unterstützen, so dass die Leistung optimal skaliert werden kann. Benötigte Informationen werden dank dem OCR Add-On rascher gefunden, erhebliche Kosteneinsparungen sind möglich. Zumal manuelle Indexierungen in der Regel entfallen, da Teile der erkannten Texte auch in den Metadaten verwendet werden können.

 

Architektur und Anwendungsvarianten

Das OCR Enterprise Add-On kann zusammen mit dem 3-Heights™ Image to PDF Converter, dem 3-Heights™ PDF to PDF/A Converter und dem 3-Heights™ Document Converter Service verwendet werden. Es ist für Windows Betriebssyteme und Linux (in Vorbereitung) verwendbar. Angesprochen wird es via API, Befehlszeile oder Windows Dienst des Basisproduktes. Die für einen Erkennungsprozess benötigten Optionen werden in einem Profil zusammengefasst. Damit ist eine optimale Abstimmung auf die zu erkennenden Texte und unterschiedliche Szenarien möglich.

 

Produktvarianten
    * Das Produkt wird in einer Enterprise Variante ohne Volumenbeschränkungen angeboten.

Optionen
    * Erkennung von CJK Schriften und Sprachen (Chinesisch, Japanisch, Koreanisch)
    * Erkennung von 2D Barcodes

Benötigte Basisprodukte
Das 3-Heights™ OCR Enterprise Add-On kann mit folgenden Basisprodukten verwendet werden:

    * 3-Heights™ Image to PDF Converter
    * 3-Heights™ PDF to PDF/A Converter
    * 3-Heights™ Document Converter Service

Erweiterte Eigenschaften
Allgemeine Parameter
    * Optimale Erkennungsrate oder hohe Erkennungsgeschwindigkeit
    * Festlegung der Dokumentsprachen

Bildmanipulation und -vorverarbeitung
    * De-Skewing: Automatische Ausrichtung von Bildern
    * Bildreinigung: unerwünschte Artefakte werden erkannt und eliminiert
    * Filterung von nicht relevanten Hintergründen
    * Erkennung und Korrektur der Seitenorientierung
   
Erkennungsmechanismen im OCR  (Optical Character Recognition)
    * Erkennung von fast 200 Sprachen bei maschinengenerierten Inhalten
    * Erweiterte Unterstützung von fast 50 Sprachen mittels Wörterbüchern und morphologischen Werkzeugen
    * Erkennung von mehrsprachigen Dokumenten
    * Erkennung von Schreibmaschinenschriften
    * Erkennung und Decodierung von 1D Barcodes
    * Erkennung von Inhaltstypen (Bilder versus Texte)

Die benötigten Optionen können zu einem Profil zusammengefasst werden. Mehrere solcher Profile sind möglich.

Betriebssysteme
    * Windows 2000, XP, 2003, Vista, 2008, Windows 7  – 32 Bit
    * Linux: SuSE und Red Hat on Intel (in Vorbereitung)

Schnittstellen
Entsprechend dem Basisprodukt:
    * API: C, Java, .NET, COM
    * Shell Tool: Befehlszeile für Stapelverarbeitung
    * Windows Service: Windows Dienst mit Überwachten Verzeichnissen

 





  Copyright by DataPerform GmbH