PDF Tools PDF Extract Tool - Inhalte aus PDF Dateien extrahieren

Das 3-Heights™ PDF Extract Tool ist eine Lösung zur Extraktion und Abfrage verschiedener Attribute und Seiteninhalte aus einem PDF Dokument. Dazu gehören Texte, Bilder, Graphikobjekte inkl. Pfade, Metadaten oder auch die eingebetteten Schriften.


Die Eigenschaften von Objekten können ebenfalls abgefragt werden. Intelligente Mechanismen erhöhen die Extraktionsraten beispielsweise bei Texten signifikant.

PDF-Tools PDF Extract Tool


Mit dem PDF Extract Tool lassen sich Texte, Bilder und Grafikobjekte (inkl. Pfade) aus PDF Dokumenten auslesen. Texte können sowohl als Zeilen wie auch als einzelne Wörter extrahiert werden. Dabei lassen sich gleichsam Informationen wie Position, Farbe, Schriftart und Schriftgrösse abfragen. Dank intelligenter Funktionen wie Heuristiken, Wortbildungsunterstützung und Zeichensatzinterpretationen lassen sich selbst Texte wieder zusammensetzen, bei denen essentielle Informationen fehlen. Bei der Extraktion von Bildern wie TIFF oder JPEG sind ebenfalls wertvolle Angaben wie Position, Farbraum oder Grösse ermittelbar. Die Abfrage von Dokumentenattributen wie PDF Version, Ersteller, Autor, Titel, Thema oder Erstellungsdatum ist ebenfalls möglich. Das Werkzeug unterstützt zudem das Lesen verschlüsselter PDF Dateien.

 

Funktionen

    * Dokument
          o Dokumentenattribute abfragen, dazu gehören:
                + Autor
                + Titel
                + Thema
                + Schlüsselwörter
                + Ersteller (creator)
                + Erzeuger (producer)
                + Erstelldatum
                + Modifikationsdatum
          o Ist Dokument verschlüsselt?
          o Ist Dokument linearisiert (optimiert für schnelle Webanzeige)?
          o PDF Version (z. B. 1.4, 1.7)
          o Dokument aus Datei oder speicherresident lesen
          o Anzahl Seiten abfragen
          o Seite wählen und deren Eigenschaften abfragen -> Siehe "Seite" 
          o Zum nächsten Lesezeichen springen und dessen Eigenschaften abfragen
          o Seitenbezeichnung abfragen (z. B. "vii", "IX")
          o Zur nächsten Ressource springen und dessen Eigenschaften abfragen (Bild / Farbraum / Schriften)
          o Destinationen -> Siehe "Destination"
    * Seite
          o Abfragen der Seitengrösse (Media Box) und anderen Grössen wie sichtbare Grösse (Crop Box) oder für den Druck relevante Grössen (Trim Box, Art Box, Bleed Box)
          o Gerätefarbe (DeviceColorant)
          o Rotation für die Anzeige
          o Seiteninhalt (page content) abfragen -> Siehe Seiteninhalt
          o Annotationen abfragen -> Siehe Annotationen
    * Seiteninhalt
          o Zum nächsten Objekt (Objekt, Bild, Text, Pfad) springen und dessen Eigenschaften abfragen (Bild / Text)
          o Aktueller Graphikstatus abfragen -> Siehe Graphikstatus
    * Text
          o Text pro Wort oder pro Zeile (in gleicher Schrift) als Unicode extrahieren
          o Unterstützung von Texten, welche keine Leerzeichen enthalten
          o Koordinaten (X, Y)
          o Umhüllende Box (Bounding Box)
          o Schriftgrösse in Punkten
          o Länge in Punkten
          o Länge in Zeichen
          o Rotation (in Radian)
    * Schrift (abfragen)
          o Ascent, Descent
          o Alle, durchschnittliche, Standard Missing Width und maximale Glyphbreiten
          o BaseName
          o Höhe von Gross- und Kleinbuchstaben
          o Vorhandene Charakternamen des Schriftensubsets
          o Kodierung
          o Flags
          o Bounding Box
          o Datenstrom eines Type1 Schriftenprogramms
          o Typ (z. B. TrueType, Type1)
          o Neigungswinkel bei kursiven Schriften
          o Empfohlener Abstand zwischen Grundlinie und darauffolgender Linie (leading)
          o Vertikale und horizontale Breite der Glyph Stems
    * Bild
          o Höhe und Breite in Pixel
          o Auflösung in Dots Per Inch (DPI)
          o Anzahl Bits pro Kanal
          o Farbraum (bitonal, monochrome, Farbe) -> Siehe Farbraum
          o Nach RGB konvertieren
          o Alternatives Bild
          o Bild extrahieren (auf Datei oder speicherresident) und Orientierung setzen
          o Kompression des gespeicherten Bildes setzen (Standard, Flate, CCITT G3, CCITT G3-2D, CCITT G4, JBIG2, JPEG, JPEG2000, LZW, keine)
          o (Transparenz-)maske
          o Alternatives Bild, und ob dieses standardmässig zum Druck verwendet werden soll
    * Graphikstatus (abfragen)
          o AlphaIsShape
          o Blend Modus
          o Abstand zwischen Zeichen und Worten (character spacing, word spacing)
          o Aktuelle Transformationsmatrix -> Siehe Transformationsmatrix
          o Die Elemente und Phase eines Strichmusters (dash pattern)
          o Farbraum der Füll- und Linienfarbe -> Siehe Farbraum
          o Füll- und Linienfarbe als RGB oder CMYK Wert
          o Überdruckeinstellungen der Füll- und Linienfarbe (over print)
          o Alphakonstante der Füll- und Linienfarbe
          o (flatness tolerance)
          o Schrift und Schriftgrösse -> Siehe Schrift
          o Horizontale Skalierung
          o Textstil (leading, line spacing)
          o Linienstil (line cap, line join, miter limit) und Linienbreite
          o Überdruckmodus
          o Name des Rendering intents
          o Smoothness Tolerance
          o Softmaske -> Siehe Bild
          o Stroke adjustment
          o Text Knockout
          o Text Rendering Modus
          o Textverschiebung (nach unten oder oben)
    * Transformationsmatrix (abfragen)
          o Transformationswerte (a, b, c, d, e, f)
          o Orientierung (8 Standardwerte oder undefiniert)
          o Rotation
          o Skalierung in X- und Y-Richtung
          o Verschiebung in X- und Y-Richtung
          o Schrägstellung (skewing) in X- und Y-Richtung
    * Annotation (abfragen)
          o Farbe
          o Inhalt
          o Datum
          o Destination -> Siehe Destination
          o Flags
          o MarkUp Annotation? (ja / nein)
          o Name
          o Position (Rechteck)
          o Thema
          o Untertyp
          o TextLabel
          o URL
          o Eckpunkte, falls es sich um ein Polygon handelt
    * Farbraum (abfragen)
          o Grundfarbraum
          o Farbe (Colorant)
          o Komponenten per Pixel
          o Den höchsten Indexwert bei indizierten Farbräumen
          o Farbraum (Farbe, indiziert, monochrom)
          o Lookup Tabelle
          o Name
    * Lesezeichen (abfragen)
          o Anzahl
          o Destination -> Siehe Destination
          o Titel
    * Destination (abfragen)
          o Position (Koordinaten von links unten, rechts oben)
          o Typ
          o Seitenzahl
   
Formate
Eingangsformate

    * PDF 1.x (z. B. PDF 1.4, PDF 1.5)

Compliance

    * Standards: ISO 32000 (PDF 1.7)

 





  Copyright by DataPerform GmbH