PDFLib TET - Text Extraction Toolkit

PDFlib TET

PDFlib TET (Text Extraction Toolkit) macht die Texte einer PDF-Datei als Unicode-Strings verfügbar und liefert zudem detaillierte Informationen über Fonts und einzelne Zeichen. TET ist eine Entwickler-Software und kann als Software-Bibliothek (Komponente) oder als Kommandozeilen-Tool eingesetzt werden. Mit TET können die entsprechenden Unicode-Werte zum Text einer PDF-Datei und deren genaue Position auf der Seite ermittelt werden. Zur Verbesserung der Ausgabequalität enthält TET Algorithmen zur Inhaltsanalyse und kann damit auch Wortgrenzen erkennen oder unnötige Textartefakte (Verdoppelungen durch Schatteneffekte oder simulierte Fettschrift) entfernen. Mit der Komponente pCOS können zudem beliebige PDF-Objekte wie Metadaten oder Hypertext angesprochen werden.

 

PDFlib TET kann eingesetzt werden:

  • zur Entwicklung einer Suchmaschine in PDF-Dateien
  • zur Textentnahme aus PDF zur Ablage in einer Datenbank
  • zum inhaltsabhängigen Archivieren oder Weiterverarbeiten von PDF-Dateien
  • zur Konvertierung in XML und Übergabe an Drittprogramme oder andere Formate

PDFlib TET verarbeitet alle Arten von PDF-Dateien

  • alle PDF-Versionen einschließlich PDF 1.6 (Acrobat 7)
  • alle Font- und Encoding-Typen: Base-14-Fonts, TrueType, PostScript, OpenType, CID-Fonts
  • verschlüsseltes PDF mit 40- and 128-bit-Verschlüsselung (bei entsprechenden Zugriffsrechten oder Angabe des Passwortes)

Weitere Informationen finden Sie im Datenblatt (PDF, ca. 103 kB).
 

 
 
 
Weitere Informationen


 

Unicode
Text in PDF ist normalerweise nicht als Unicode kodiert; PDFlib TET normalisiert daher allen Text nach Unicode:

  • TET konvertiert sämtlichen Text nach Unicode. In C wird der Text als UTF-8 oder UTF-16 zurückgegeben, bei allen anderen Programmiersprachen direkt als Unicode.
  • Ligaturen und andere zusammengesetzte Zeichen werden als Sequenz der beteiligten Unicode-Zeichen ausgegeben.
  • Herstellerabhängig kodierte Unicode-Zeichen werden erkannt und nach Möglichkeit in den allgemeinen Unicode-Zeichenraum abgebildet.
  • Zeichen ohne eigenes Unicode-Mapping werden als solche erkannt und auf ein konfigurierbares Ersatzzeichen abgebildet.
     

Chinesisch, Japanisch, Koreanisch
PDFLib TET unterstützt vollständig die Entnahme von chinesischem, japanischem und koreanischem Text. Alle vordefinerten CJK CMaps (encodings) werden erkannt, horizontale und vertikale Schriften unterstützt.

 

Inhaltsanalyse und Worterkennung
PDFlib TET liefert die grundlegende Zeicheninformation, bietet aber auch hochentwickelte Algorithmen zur Textanalyse:

  • erkennt Wortgrenzen und liefert Wörter statt einzelnzer Zeichen
  • kombiniert Wortteile nach Silbentrennung
  • entfernt überflüssige Textartefakte, etwa Verdoppelungen durch Schatteneffekte oder simulierte Fettschrift
  • ordnet den Ausgabetext in der Lesefolge an
  • fügt Textzeilen neu zusammen


Positionierung und Geometrie
PDFlib TET liefert zu Textojekten genaue Positionsdaten, etwa die Lage auf der Seite, die Zeichenbreite oder die Textausrichtung. Bestimmte Bereiche einer Seite können explizit von der Erfassung ausgeschlossen oder auch eingeschlossen werden, etwa um Kopf- oder Fußzeilen zu übergehen.

 


pCOS bietet einfachen Zugriff auf PDF-Objekte

PDFlib TET umfasst pCOS (PDFlib Comprehensive Object System), eine Programmierschnittstelle mit einfacher Abfrage-Syntax zum konsistenten Zugriff auf PDF-Metadaten, Hypertext oder andere nicht-textuelle Informationen eines PDF-Dokuments.

 


Programmierung und Leistungfähigkeit
 
PDFlib TET ist hoch portabel, extrem schnell, robust und für Multithread-Serverumgebungen geeignet. Der Bibliothekskern wurde in C für höchste Leistung bei geringstem Overhead geschrieben. Sprachanbindungen gibt es für COM, C, C++, Java und .NET.

 


TET-Kommandozeilentool und TET-Bibliothek
PDFlib TET wird in einem Programmpaket als Software-Bibliothek (Komponente) für diverse Programmierumgebungen und als Kommandozeilen-Tool für Batch-Prozesse geliefert. Beide Ausführungen bieten die gleiche Funktionalität, eignen sich aber für unterschiedliche Einsatzbereiche. Dazu einige Anhaltspunkte:

  • TET als Software-Bibliothek eignet sich besonders zur Integration in Desktop- oder Server-Anwendungen. Beispiele hierfür werden für alle gängigen Programmiersprachen mitgeliefert.
  • TET als Kommandozeilen-Tool erfordert keine Programmierung und eignet sich daher ideal zur Batch-Verarbeitung von PDF-Dokumenten. Neben reinem Text ist auch eine Ausgabe als XML möglich. Die Konfiguration erfolgt über Kommandozeilen-Parameter zur einfachen Integration in vorhandene Arbeitsabläufe.

Weitere Informationen finden Sie im Datenblatt (PDF, ca. 103 kB).
 


PDFlib Produkte laufen auf einer Vielzahl von unterschiedlichen Plattformen. Unterstützt werden Mac, Windows und alle führenden Unix-Plattformen sowie Sun Solaris, iSeries und zSeries.
 
 





  Copyright by DataPerform GmbH