Glyph & Cog XPDFText
XPDFText konvertiert PDF-Dokumente in reinen Text mit ASCCII, 8-bit Latin1, UTF-8 Unicode und anderen Standard CJK Kodierungen und kann auch für eigene Kodierungen konfiguriert werden. Erhältlich ist XPDFText als Shared Library für Unix Plaftformen, als DLL oder als COM Komponente für Windows.
Weitere Informationen
Das PDF-Dokument, aus dem der Text extrahiert werden soll, kann dabei entweder nur im Speicher oder auch auf der Festplatte gespeichert sein. Demzufolge kann der Text wiederum direkt im Speicher oder auf der Festplatte abgelegt werden. XPDFText kann auf verschiedene Weise verwendet werden: - Komplette PDF-Dokumente oder einzelne Seiten konvertieren, wobei
- das Layout oder
- die Absatzreihenfolge erhalten bleibt
- Text aus einem festgelegten Bereich der Seite extrahieren
- Seiten in Wörterlisten konvertieren - für jedes Wort können Sie:
- Schriftart und -grösse
- Textfarbe
- Position des Wortes auf der Seite und
- und Zeichenabstand ermitteln
Der extrahierte Text kann auf unterschiedliche Weise kodiert werden: - UTF-8 Unicode
- Latin1 (8-bit ISO-8859-1)
- 7-bit ASCII
- ISO-2022-CN (simplified Chinese)
- EUC-CN (simplified Chinese)
- Big5 (traditional Chinese)
- KOI8-R (Cyrillic)
- ISO-8859-7 (Greek)
- ISO-2022-JP (Japanese)
- EUC-JP (Japanese)
- Shift-JIS (Japanese)
- KSX1001 (Korean)
- TIS-620 (Thai)
- ISO-8859-9 (Turkish)
Die XpdfText Library enthält auch alle Funktionen der XPDFInfo Library.
XPDFInfo ist einfach einzusetzen PDFHandle pdf; char *buf; int length;
pdfLoadFile(&pdf, "MyFile.pdf");
// convert to a text file on disk... pdfConvertToTextFile(pdf, 1, 5, "MyFile.txt");
// ... or convert in memory buf = pdfConvertToTextString(pdf, 1, 5, &length);
|
Unterstützte Plattformen:
- Windows: DLL
- Windows: COM Komponente (aus Visual Basic, Delphi , ...)
- Linux: shared library
- Solaris: shared library
- für andere Plattformen ist portierbarer C++ Quellcode erhältlich
Für OEM-Kunden und ambitionierte Entwickler steht auch der vollständige Quellcode des XPDF-Projekts zur Verfügung. Bei Interesse wenden Sie sich einfach an sales@pdfstore.de.
|