ALLIANZ
AOK
Augustiner Festhalle
AWO Arbeiterwohlfahrt
Barmenia
Basler Versicherung
BAYER
Bayerngas
Bechtle
Betten Rid
Blanco
BRAIN
Brainloop
BRUNATA
Bundesamt für Wirtschaft und Ausfuhrkontrolle
BW FuhrparkService
CCP Software
CERATIZIT
Commerzleasing und Immobilien AG
Continentale Lebensversicherung e.G.
DaimlerChrysler Immobilien
DEGUSSA
DEKRA
Deutsche Bank
Deutsche Telekom
Deutsche Post
Die Österreichische Hagelversicherung
EDEKA AG
Ernst & Young AG
Finanzmarktaufsicht (FMA) Österreich
Fujifilm Europe
Fujitsu Siemens
General Electric
Gewerkschaft der Polizei
HERDT Verlag
Hochtief
Honeywell
IBM
IDEAL Versicherung
IZB Soft
Institut für Mittelstandsforschung
JobScout24
Land Tirol
Land Oberösterreich
Land Salzburg
Leitz
Lexware
Linde
Luftfahrt-Bundesamt
MAHAG
MAN
Maxdata
Media Saturn
MCM Klosterfrau GmbH & Co Navigon
"Nordsee" Fisch-Spezialitäten
O2
OMV
Orgadata
PC-Ware
Renz Metalwarenfabrik
Rolf Benz
Sächsische Staatskanzlei
Senatskanzlei Hamburg
Statistisches Landesamt München
Securitas
SIEMENS
smart GmbH
Software Spectrum
Staatl. Hofbräuhaus München
STRABAG
Thüringer Landesrechenzentrum
Triumph International AG
T-Systems
Unilog Integrata AG
Umweltbank AG
Voest
Warner Music Group
WDR
Württembergische Versicherung AG
Xerox
Zürich Versicherungs-Aktiengesellschaft
 

 

Glyph & Cog XPDFText

Glyph&Cog Logo

XPDFText konvertiert PDF-Dokumente in reinen Text mit ASCCII, 8-bit Latin1, UTF-8 Unicode und anderen Standard CJK Kodierungen und kann auch für eigene Kodierungen konfiguriert werden. Erhältlich ist XPDFText als Shared Library für Unix Plaftformen, als DLL oder als COM Komponente für Windows.
 
 

 
 
 
Weitere Informationen

 

Das PDF-Dokument, aus dem der Text extrahiert werden soll, kann dabei entweder nur im Speicher oder auch auf der Festplatte gespeichert sein. Demzufolge kann der Text wiederum direkt im Speicher oder auf der Festplatte abgelegt werden.
 

 

XPDFText kann auf verschiedene Weise verwendet werden:

  • Komplette PDF-Dokumente oder einzelne Seiten konvertieren, wobei
    • das Layout oder
    • die Absatzreihenfolge erhalten bleibt 
  • Text aus einem festgelegten Bereich der Seite extrahieren
    • hilfreich bei Formularen 
  • Seiten in Wörterlisten konvertieren - für jedes Wort können Sie:
    • Schriftart und -grösse 
    • Textfarbe 
    • Position des Wortes auf der Seite und 
    • und Zeichenabstand ermitteln

 

Der extrahierte Text kann auf unterschiedliche Weise kodiert werden:

  • UTF-8 Unicode
  • Latin1 (8-bit ISO-8859-1)
  • 7-bit ASCII
  • ISO-2022-CN (simplified Chinese)
  • EUC-CN (simplified Chinese)
  • Big5 (traditional Chinese)
  • KOI8-R (Cyrillic)
  • ISO-8859-7 (Greek)
  • ISO-2022-JP (Japanese)
  • EUC-JP (Japanese)
  • Shift-JIS (Japanese)
  • KSX1001 (Korean)
  • TIS-620 (Thai)
  • ISO-8859-9 (Turkish)

 

Die XpdfText Library enthält auch alle Funktionen der XPDFInfo Library.
 
 

XPDFInfo ist einfach einzusetzen  

 

PDFHandle pdf;
char *buf;
int length;

pdfLoadFile(&pdf, "MyFile.pdf");

// convert to a text file on disk...
pdfConvertToTextFile(pdf, 1, 5, "MyFile.txt");

// ... or convert in memory
buf = pdfConvertToTextString(pdf, 1, 5, &length);


 
Unterstützte Plattformen:

  • Windows: DLL
  • Windows: COM Komponente (aus Visual Basic, Delphi , ...)
  • Linux: shared library
  • Solaris: shared library
  • für andere Plattformen ist portierbarer C++ Quellcode erhältlich


Für OEM-Kunden und ambitionierte Entwickler steht auch der vollständige Quellcode des XPDF-Projekts zur Verfügung. Bei Interesse wenden Sie sich einfach an sales@pdfstore.de.
 
 





  Copyright by DataPerform GmbH