 |
PDFLib pCOS - Informationen aus PDF's abfragen
Das PDF Information Retrieval Tool
PDFlib pCOS eröffnet dem Anwender Zugriff auf alle PDF-Metadaten, Hypertext
oder jede andere Information eines PDF-Dokuments (außerhalb des eigentlichen
Seiteninhalts), ohne dass hierfür eigene Parser-Programmierung erforderlich
wäre (pCOS steht für PDFlib Comprehensive Object Syntax). PDFlib pCOS greift
nicht auf den eigentlichen Inhalt (Text) der PDF-Datei zu – hierzu wird
PDFlib TET verwendet.
Mit PDFlib pCOS können wichtige
Zusatzinformationen aus einem PDF-Dokument ausgelesen werden:
-
Allgemeine Angaben:
Linearisierungsstatus, Tagged PDF, Verschlüsselung und Zugriffsrechte,
Seitenzahl, Fonts
-
Dokumentinfo-Einträge und
XMP-Metadaten
-
Fonts mit Namen, Einbettungsstatus,
usw.
-
Verweisziele (URLs) und Koordinaten
von Weblinks Formularfelder: Feldnamen, Inhalte, Position, usw.
-
Seitengröße, CropBox, Seitenrotation
-
PDF/X-Status
-
Dateianhänge auflisten oder
extrahieren
-
Ebenen (layers) benennen
-
Detailinformationen zu Anmerkungen
Kommentare mit Namen des Bearbeiters auflisten Detailinformationen zu digitalen
Signaturen: Namen der Signaturfelder; signiert/unsigniert; Name des Signierers;
Datum und Grund der Signatur
-
ICC-Profile aus PDF/X- und
PDF/A-Dateien extrahieren
-
Eigenschaften der PDFlib-Blöcke
ausgeben
-
JavaScript auf Dokument-, Seiten-,
Annotation- und Feldebene
Weitere Informationen finden Sie im
Datenblatt (PDF, ca. 137 kB).
Weitere
Informationen
Anwendungsfälle
Die praktische Arbeit mit PDF bietet viele Einsatzmöglichkeiten für PDFlib
pCOS, das Tool eignet sich aber auch zur Fehlersuche in problematischen
PDF-Dateien. Typische Anwendungsszenarien:
-
Überprüfung eingehender Dokumente
auf bestimmte Eigenschaften (Fonts, JavaScript, etc.)
-
Inhaltsverzeichnis nachträglich
erstellen durch Extrahieren aller Lesezeichen und der zugehörigen Seitennummer
-
Problemfälle in einer großen Anzahl
existierender PDF-Dateien finden
-
Eigenschaftslisten von PDF-Dateien
für Dokumentmanagementsysteme erstellen
-
Qualitätskontrolle druckfertiger
PDF-Dateien
-
Dokumentenretrieval- und
Repository-Workflows
-
Erkenntnisse über Details von
PDF-Datenstrukturen gewinnen
PDF-Eingabeformate
PDFlib pCOS verarbeitet alle gängigen
Varianten von PDF:
-
alle PDF-Versionen bis PDF 1.6
(Acrobat 7)
-
verschlüsseltes PDF mit 40- und
128-Bit-Verschlüsselung
-
ausgefeiltes Sicherheitsmodell: auch
ohne Passwort können einzelne Informationen abgefragt werden, solange dies
nicht den Intentionen des Autors widerspricht
Ausgabeformate
PDFlib pCOS kann mit nur einem Aufruf
viele Dateien verarbeiten; damit können sehr einfach und auch bei einem großen
Bestand an PDF-Dateien Übersichten über Dokumentinfo-Einträge, Seitenformate,
Schriftarten oder andere Eigenschaften erstellt werden. Durch die
Tabellen-Ausgabe erwächst daraus ein mächtiges PDF-Verwaltungstool.
PDFlib pCOS erzeugt Ausgabe für diverse Verwendungszwecke:
-
einfacher Text
-
Tabellarische Ausgabe zur einfachen
Weiterverarbeitung in Kalkulations- oder Datenbank-Programmen
-
Binärdaten (ICC-Profile,
Dateianhänge)
-
Unicode-Text in den Formaten UTF-8
und UTF-16
pCOS-Kommandozeilentool und
pCOS-Bibliothek
PDFlib pCOS wird in einem
Programmpaket als Software-Bibliothek (Komponente) für diverse
Entwicklungsumgebungen und als Kommandozeilen-Tool für Batch-Prozesse
geliefert. Beide Ausführungen bieten die gleiche Funktionalität und
pCOS-Pfadsyntax, eignen sich aber für unterschiedliche Einsatzbereiche.
Besonderheiten der pCOS-Funktionsbibliothek
-
Integration in Desktop- oder
Server-Anwendungen
-
Anbindung an C, C++, COM, .NET und
Java
-
Dokumente
direkt aus dem Hauptpeicher lesen (in C)
-
Programmierbeispiele im Lieferumfang
enthalten
Besonderheiten der
pCOS-Kommandozeile
-
Erfordert keine Programmierung und
eignet sich daher ideal zur Batch-Verarbeitung von PDF-Dokumenten
-
Einfache Abfrage typischer
PDF-Elemente wie Lesezeichen, Anmerkungen, Formularfelder, Metadaten, etc.
-
Erweiterter Modus zur Abfrage
komplexer Objekte
-
Ausgabe der Informationen in
benutzerdefiniertem Format oder als CSV zum Import in Tabellenkalkulation oder
Datenbank
-
Rekursion zur Erfassung
verschachtelter PDF-Objekte (z.B. Dictionaries oder Arrays)
pCOS Pfade
einfache Syntax für PDF-Objekte
PDFlib pCOS bietet eine einfache
Pfadsyntax, mit der beliebige Objekte innerhalb einer PDF-Datei angesprochen
werden können. Die pCOS-Syntax bildet die PDF-Objektstruktur ab, bietet aber
praktische Kurzformen zum Zugriff auf häufig benötigte Objekte, etwa Seiten,
Schriften, Lesezeichen, Formularfelder, usw. Ohne sich um komplexe
PDF-Baumstrukturen kümmern zu müssen, können Objekte direkt mit einfachen
pCOS-Pseudo-Objekten angesprochen werden. Diese sind in der pCOS-Dokumentation
ausführlich beschrieben. Die pCOS-Pfadsyntax muss bei Anwendung der
pCOS-Programmbibliothek benutzt werden, wird aber auch vom
pCOS-Kommandozeilen-Tool unterstützt.
Programmierung und
Leistungsfähigkeit
PDFlib pCOS ist hoch portabel, extrem
schnell, robust und auch für Multithread-Serverumgebungen geeignet. Der
Bibliothekskern wurde in C für höchste Leistung bei geringstem Overhead
geschrieben. Zusätzliche Sprachanbindungen für gängige Entwicklungsumgebungen
sind verfügbar.
Weitere
Informationen finden Sie im
Datenblatt (PDF, ca. 137 kB).
PDFlib
Produkte laufen auf einer Vielzahl von unterschiedlichen Plattformen. Unterstützt
werden Mac, Windows
und alle führenden Unix -Plattformen sowie Sun
Solaris.
Bitte wählen Sie für den Demo-Download Ihre
gewünschte Version:
Verwandte Produkte
|
 |