ALLIANZ
AOK
Augustiner Festhalle
AWO Arbeiterwohlfahrt
Barmenia
Basler Versicherung
BAYER
Bayerngas
Bechtle
Betten Rid
Blanco
BRAIN
Brainloop
BRUNATA
Bundesamt für Wirtschaft und Ausfuhrkontrolle
BW FuhrparkService
CCP Software
CERATIZIT
Commerzleasing und Immobilien AG
Continentale Lebensversicherung e.G.
DaimlerChrysler Immobilien
DEGUSSA
DEKRA
Deutsche Bank
Deutsche Telekom
Deutsche Post
Die Österreichische Hagelversicherung
EDEKA AG
Ernst & Young AG
Finanzmarktaufsicht (FMA) Österreich
Fujifilm Europe
Fujitsu Siemens
General Electric
Gewerkschaft der Polizei
HERDT Verlag
Hochtief
Honeywell
IBM
IDEAL Versicherung
IZB Soft
Institut für Mittelstandsforschung
JobScout24
Land Tirol
Land Oberösterreich
Land Salzburg
Leitz
Lexware
Linde
Luftfahrt-Bundesamt
MAHAG
MAN
Maxdata
Media Saturn
MCM Klosterfrau GmbH & Co Navigon
"Nordsee" Fisch-Spezialitäten
O2
OMV
Orgadata
PC-Ware
Renz Metalwarenfabrik
Rolf Benz
Sächsische Staatskanzlei
Senatskanzlei Hamburg
Statistisches Landesamt München
Securitas
SIEMENS
smart GmbH
Software Spectrum
Staatl. Hofbräuhaus München
STRABAG
Thüringer Landesrechenzentrum
Triumph International AG
T-Systems
Unilog Integrata AG
Umweltbank AG
Voest
Warner Music Group
WDR
Württembergische Versicherung AG
Xerox
Zürich Versicherungs-Aktiengesellschaft
 

 

PDF Tools PDF Extract Tool - Inhalte aus PDF Dateien extrahieren

Das 3-Heights™ PDF Extract Tool ist eine Lösung zur Extraktion und Abfrage verschiedener Attribute und Seiteninhalte aus einem PDF Dokument. Dazu gehören Texte, Bilder, Graphikobjekte inkl. Pfade, Metadaten oder auch die eingebetteten Schriften.


Die Eigenschaften von Objekten können ebenfalls abgefragt werden. Intelligente Mechanismen erhöhen die Extraktionsraten beispielsweise bei Texten signifikant.

PDF-Tools PDF Extract Tool


Mit dem PDF Extract Tool lassen sich Texte, Bilder und Grafikobjekte (inkl. Pfade) aus PDF Dokumenten auslesen. Texte können sowohl als Zeilen wie auch als einzelne Wörter extrahiert werden. Dabei lassen sich gleichsam Informationen wie Position, Farbe, Schriftart und Schriftgrösse abfragen. Dank intelligenter Funktionen wie Heuristiken, Wortbildungsunterstützung und Zeichensatzinterpretationen lassen sich selbst Texte wieder zusammensetzen, bei denen essentielle Informationen fehlen. Bei der Extraktion von Bildern wie TIFF oder JPEG sind ebenfalls wertvolle Angaben wie Position, Farbraum oder Grösse ermittelbar. Die Abfrage von Dokumentenattributen wie PDF Version, Ersteller, Autor, Titel, Thema oder Erstellungsdatum ist ebenfalls möglich. Das Werkzeug unterstützt zudem das Lesen verschlüsselter PDF Dateien.

 

Funktionen

    * Dokument
          o Dokumentenattribute abfragen, dazu gehören:
                + Autor
                + Titel
                + Thema
                + Schlüsselwörter
                + Ersteller (creator)
                + Erzeuger (producer)
                + Erstelldatum
                + Modifikationsdatum
          o Ist Dokument verschlüsselt?
          o Ist Dokument linearisiert (optimiert für schnelle Webanzeige)?
          o PDF Version (z. B. 1.4, 1.7)
          o Dokument aus Datei oder speicherresident lesen
          o Anzahl Seiten abfragen
          o Seite wählen und deren Eigenschaften abfragen -> Siehe "Seite" 
          o Zum nächsten Lesezeichen springen und dessen Eigenschaften abfragen
          o Seitenbezeichnung abfragen (z. B. "vii", "IX")
          o Zur nächsten Ressource springen und dessen Eigenschaften abfragen (Bild / Farbraum / Schriften)
          o Destinationen -> Siehe "Destination"
    * Seite
          o Abfragen der Seitengrösse (Media Box) und anderen Grössen wie sichtbare Grösse (Crop Box) oder für den Druck relevante Grössen (Trim Box, Art Box, Bleed Box)
          o Gerätefarbe (DeviceColorant)
          o Rotation für die Anzeige
          o Seiteninhalt (page content) abfragen -> Siehe Seiteninhalt
          o Annotationen abfragen -> Siehe Annotationen
    * Seiteninhalt
          o Zum nächsten Objekt (Objekt, Bild, Text, Pfad) springen und dessen Eigenschaften abfragen (Bild / Text)
          o Aktueller Graphikstatus abfragen -> Siehe Graphikstatus
    * Text
          o Text pro Wort oder pro Zeile (in gleicher Schrift) als Unicode extrahieren
          o Unterstützung von Texten, welche keine Leerzeichen enthalten
          o Koordinaten (X, Y)
          o Umhüllende Box (Bounding Box)
          o Schriftgrösse in Punkten
          o Länge in Punkten
          o Länge in Zeichen
          o Rotation (in Radian)
    * Schrift (abfragen)
          o Ascent, Descent
          o Alle, durchschnittliche, Standard Missing Width und maximale Glyphbreiten
          o BaseName
          o Höhe von Gross- und Kleinbuchstaben
          o Vorhandene Charakternamen des Schriftensubsets
          o Kodierung
          o Flags
          o Bounding Box
          o Datenstrom eines Type1 Schriftenprogramms
          o Typ (z. B. TrueType, Type1)
          o Neigungswinkel bei kursiven Schriften
          o Empfohlener Abstand zwischen Grundlinie und darauffolgender Linie (leading)
          o Vertikale und horizontale Breite der Glyph Stems
    * Bild
          o Höhe und Breite in Pixel
          o Auflösung in Dots Per Inch (DPI)
          o Anzahl Bits pro Kanal
          o Farbraum (bitonal, monochrome, Farbe) -> Siehe Farbraum
          o Nach RGB konvertieren
          o Alternatives Bild
          o Bild extrahieren (auf Datei oder speicherresident) und Orientierung setzen
          o Kompression des gespeicherten Bildes setzen (Standard, Flate, CCITT G3, CCITT G3-2D, CCITT G4, JBIG2, JPEG, JPEG2000, LZW, keine)
          o (Transparenz-)maske
          o Alternatives Bild, und ob dieses standardmässig zum Druck verwendet werden soll
    * Graphikstatus (abfragen)
          o AlphaIsShape
          o Blend Modus
          o Abstand zwischen Zeichen und Worten (character spacing, word spacing)
          o Aktuelle Transformationsmatrix -> Siehe Transformationsmatrix
          o Die Elemente und Phase eines Strichmusters (dash pattern)
          o Farbraum der Füll- und Linienfarbe -> Siehe Farbraum
          o Füll- und Linienfarbe als RGB oder CMYK Wert
          o Überdruckeinstellungen der Füll- und Linienfarbe (over print)
          o Alphakonstante der Füll- und Linienfarbe
          o (flatness tolerance)
          o Schrift und Schriftgrösse -> Siehe Schrift
          o Horizontale Skalierung
          o Textstil (leading, line spacing)
          o Linienstil (line cap, line join, miter limit) und Linienbreite
          o Überdruckmodus
          o Name des Rendering intents
          o Smoothness Tolerance
          o Softmaske -> Siehe Bild
          o Stroke adjustment
          o Text Knockout
          o Text Rendering Modus
          o Textverschiebung (nach unten oder oben)
    * Transformationsmatrix (abfragen)
          o Transformationswerte (a, b, c, d, e, f)
          o Orientierung (8 Standardwerte oder undefiniert)
          o Rotation
          o Skalierung in X- und Y-Richtung
          o Verschiebung in X- und Y-Richtung
          o Schrägstellung (skewing) in X- und Y-Richtung
    * Annotation (abfragen)
          o Farbe
          o Inhalt
          o Datum
          o Destination -> Siehe Destination
          o Flags
          o MarkUp Annotation? (ja / nein)
          o Name
          o Position (Rechteck)
          o Thema
          o Untertyp
          o TextLabel
          o URL
          o Eckpunkte, falls es sich um ein Polygon handelt
    * Farbraum (abfragen)
          o Grundfarbraum
          o Farbe (Colorant)
          o Komponenten per Pixel
          o Den höchsten Indexwert bei indizierten Farbräumen
          o Farbraum (Farbe, indiziert, monochrom)
          o Lookup Tabelle
          o Name
    * Lesezeichen (abfragen)
          o Anzahl
          o Destination -> Siehe Destination
          o Titel
    * Destination (abfragen)
          o Position (Koordinaten von links unten, rechts oben)
          o Typ
          o Seitenzahl
   
Formate
Eingangsformate

    * PDF 1.x (z. B. PDF 1.4, PDF 1.5)

Compliance

    * Standards: ISO 32000 (PDF 1.7)

 





  Copyright by DataPerform GmbH