PDFlib GmbH hat Version 2.0 von PDFlib pCOS freigegeben, dem PDF Information Retrieval Tool. Zusätzlich erleichtert das neue pCOS Cookbook mit zahlreichen Code-Beispielen die Analyse von interessanten Objekten aus dem PDF-Dokument.
Was ist PDFlib pCOS? PDFlib pCOS bietet eine einfache und elegante Methode, um aus PDFDokumenten Informationen abzurufen, die nicht zum Seiteninhalt gehören. PDF-Metadaten, interaktive Elemente (Links etc.) oder Seitengrößen sind zum Beispiel bequem mit pCOS abfragbar. Mit pCOS können Sie zahlreiche interessante Elemente auslesen und für verschiedene Verwendungszwecke ausgeben. Da pCOS in einem einzigen Aufruf viele PDF-Dokumente verarbeiten kann, können Sie sehr einfach Übersichten über Dokumentinfofelder, Seitengrößen, Schriften und andere Eigenschaften erstellen. In Kombination mit tabellarischer Ausgabe erwächst daraus ein leistungsfähiges PDF-Verwaltungswerkzeug. Im täglichen Umgang mit PDF bieten sich vielseitige Einsatzmöglichkeiten für pCOS. Sie können PDFlib pCOS aber auch zur Fehlersuche in problematischen PDF-Dateien oder zum Erlernen des PDF-Formats verwenden. Typische Anwendungsfälle sind:
- Eingehende Dokumente auf bestimmte Eigenschaften überprüfen
- PDFs auf Sicherheitsmängel oder aktive Inhalte (JavaScript etc.) überprüfen
- Qualitätskontrolle von Dokumenten vor der Veröffentlichung
- Problemfälle in umfangreichen Dokumentbeständen ermitteln
- Zusammenfassungen für Dokumentenmanagement erstellen
- Details von PDF-Datenstrukturen untersuchen
Das pCOS Cookbook. Das neue pCOS Cookbook ist eine Sammlung von Codefragmenten für pCOS, die Entwicklern an zahlreichen Beispielen zeigt, wie sich die Funktionen von pCOS erfolgreich nutzen lassen. Das Downloadpaket enthält zusätzlich auch ein Projektfile für Eclipse, mit dem sich das Cookbook direkt in die Java-Entwicklungsumgebung Eclipse importieren lässt. Die Cookbook-Beispiele sind in Java geschrieben. Da das API von pCOS aber für alle unterstützten Programmiersprachen identisch ist, lassen sich die Beispiele unkompliziert auch in andere Programmiersprachen übertragen.
pCOS testen. Unter www.pdflib.com stehen das Softwarepaket pCOS und das kostenlose pCOS Cookbook zum Download zur Verfügung. Sowohl das pCOS-Commandlinetool als auch die pCOS-Bibliothek können auch ohne den Erwerb einer Lizenz als Evaluierungsversionen eingesetzt werden. Solange kein gültiger Lizenzschlüssel installiert wurde, ist pCOS lediglich durch eine Volumenbegrenzung von 10 Seiten und 1 Megabyte beschränkt, die Funktionen stehen jedoch vollständig zum Test zur Verfügung.
Funktionalität von PDFlib pCOS. PDFlib pCOS bietet eine einfach zu bedienende Abfrageschnittstelle, die die Parser-Programmierung überflüssig macht. Mit pCOS können Sie zahlreiche interessante Elemente extrahieren, wie zum Beispiel:
- Allgemeine Angaben: Status von Linearisierung und Tagged PDF, Verschlüsselungsinformationen und Berechtigungseinstellungen, Seitenanzahl und Schriften
- Dokumentinfofelder und XMP-Metadaten
- Alle Schriften mit Namen, Einbettungsstatus, etc.
- Rasterbilder mit Größe, Bittiefe, Farbraum, Kompression, etc.
- Farbrauminformationen für alle PDF-Farbvarianten
- Verweisziele (URLs) und Koordinaten von Web-Links
- Lesezeichen mit Seitennummern, um ein Inhaltsverzeichnis zu erstellen
- Formularfelder: vollständiger Feldname, Inhalt, Position, etc.
- Seitengröße, CropBox, Seitendrehung
- Status von PDF/X- und PDF/A-konformen Dateien
- Alle Dateianhänge auflisten oder extrahieren
- Namen von Ebenen, symbolische Seitennamen, Artikel
- Details zu Anmerkungen
- Alle Kommentare mit Namen des jeweiligen Bearbeiters
- Details zu digitalen Signaturen: Namen der Signaturfelder, unterzeichnet/nicht unterzeichnet, Name des Unterzeichners, Datum und Grund der Signatur
- ICC-Profile für Druckausgabebedingungen aus PDF/X- oder PDF/A-Dateien extrahieren
- Alle PDFlib-Blockeigenschaften extrahieren
- JavaScript auf Dokument-, Seiten-, Anmerkungs- und Feldebene
Über pCOS. Mit dem PDF Information Retrieval Tool PDFlib pCOS lassen sich PDF-Metadaten, Hypertext und zahlreiche andere Informationen aus einem PDF-Dokument extrahieren. Alle Objekte sind über ein unkompliziertes Interface zugänglich. (Die Abkürzung pCOS steht für PDFlib Comprehensive Object Syntax.) PDFlib pCOS extrahiert allerdings keine Seiteninhalte, dafür ist das Produkt PDFlib TET (Text Extraction Toolkit) zuständig. Das pCOS Interface ist auch in der PDFlib-Produktfamilie und PLOP 3 enthalten.