So extrahieren Sie eingebettete Bilder aus einer PDF-Datei in Ubuntu mit PDFImages

Während wir bereits wissen, wie man bestehende PDF-Dateien in Ubuntu bearbeitet, gibt es Zeiten, in denen die Notwendigkeit besteht, alle oder einige der in einer PDF-Datei enthaltenen Bilder zu verwenden. Manuelles Kopieren und Einfügen ist definitiv eine Option, aber es ist nicht zeitsparend, besonders wenn die PDF-Datei eine große Anzahl von Bildern enthält.

Es gibt ein Werkzeug namens PDFImages, das die Bildauswertung aus PDF-Dateien zu einem Kinderspiel macht. In diesem Artikel werden wir dieses Tool anhand leicht verständlicher Beispiele diskutieren. Beachten Sie, dass alle in diesem Artikel verwendeten Beispiele unter Ubuntu 14.04 LTS mit der Version 0.24.5 des Tools getestet wurden.

Was ist PDFImages?

Wie bereits erwähnt, ist PDFImages ein Befehlszeilenprogramm, mit dem Sie Bilder aus einer PDF-Datei extrahieren können. Die Manpage des Tools besagt, dass es die PDF-Eingabedatei liest, scannt und für jedes Bild in der PDF-Datei eine Portable Pixmap (PPM), eine Portable Pixmap (PBM) oder eine JPEG-Datei erstellt.

Herunterladen und installieren

Wenn das Tool noch nicht auf Ihrer Ubuntu-Box installiert ist, können Sie es mit dem folgenden Befehl herunterladen und installieren:

 sudo apt-get install poppler-utils

Zusätzlich zu PDFImages enthält das Paket "poppler-utils" mehrere andere Befehlszeilenprogramme, mit denen Informationen aus PDF-Dokumenten abgerufen, in andere Formate konvertiert oder bearbeitet werden können.

Verwendung

Das Befehlszeilentool PDFImages benötigt in seiner grundlegendsten Form zwei Argumente: eine PDF-Eingabedatei und den Pfad zu dem Verzeichnis, in dem das Werkzeug die Bilder speichern soll. In meinem Fall habe ich beispielsweise versucht, Bilder aus einer PDF-Datei namens "christmas_story.pdf" zu extrahieren und in ein Verzeichnis namens "pdfimages" zu speichern.

 pdfimages /home/himanshu/Downloads/christmas_story.pdf / home / himanshu / Downloads / pdfimages /

Der obige Befehl erzeugte die folgenden Dateien im Zielverzeichnis:

 ls / home / himanshu / Herunterladen / pdfimages / -000.ppm -001.ppm -002.ppm -003.ppm -004.ppm -005.ppm -006.ppm -007.ppm

Wie Sie in der obigen Ausgabe sehen können, beginnt der Name der Dateien mit einem Bindestrich (-) gefolgt von einer Zahl. Für diejenigen, die sich fragen, warum der Name mit einem Bindestrich beginnt, gibt Ihnen das Tool die Flexibilität, ein beliebiges Wort vor den Bindestrich zu setzen, sodass Sie benutzerdefinierte Namen für die Ausgabebilder erstellen können. Sie können dies tun, indem Sie das bestimmte Wort zum Pfad des Zielverzeichnisses hinzufügen, während Sie den Befehl ausführen.

Zum Beispiel habe ich dem Pfad des Zielverzeichnisses das Wort "image" hinzugefügt:

 pdfimages /home/himanshu/Downloads/christmas_story.pdf / home / himanshu / Downloads / pdf Bilder / Bild

Und die Ausgabedateien, die in diesem Fall erzeugt wurden, trugen den folgenden Namen:

 ls / home / himanshu / Downloads / pdfimages / bild-000.ppm Bild-001.ppm Bild-002.ppm Bild-003.ppm Bild-004.ppm Bild-005.ppm Bild-006.ppm Bild-007.ppm

Es ist erwähnenswert, dass im Gegensatz zu dem, was die Manpage des Tools sagt, zwei Bilder für jedes Bild in der PDF-Datei erzeugt werden, von denen eines leer ist, während das andere verwendbar ist. In meinem Fall waren die ungeradzahligen Bilder leer:

Sie können auch das Ausgabedateiformat von "ppm" in "jpeg" ändern, was Sie mit der Option -j tun können. Beachten Sie jedoch, dass bei dieser Option nur Bilder im DCT-Format als JPEG-Dateien gespeichert werden - alle Nicht-DCT-Bilder werden wie gewohnt im PBM / PPM-Format gespeichert.

Sie können auch angeben, welche Seiten das Werkzeug scannen soll. Auf diese Weise erhalten Sie nur die Bilder, die auf diesen Seiten vorhanden sind. Um diese Option zu aktivieren, müssen Sie die Option -f (gefolgt von der Seitennummer) und -l (gefolgt von der Seitennummer) verwenden, um die Start- bzw. die Endseite anzugeben.

Zum Beispiel wollte ich, dass das Tool nur Bilder extrahiert, die auf der ersten Seite der PDF-Datei vorhanden sind. Daher habe ich den folgenden Befehl verwendet:

 pdfimages -f 1 -l 1 /home/himanshu/Downloads/christmas_story.pdf / home / himanshu / Downloads / pdfimages /

Und im Zielverzeichnis wurden nur zwei Bilder (insgesamt vier einschließlich der leeren) erstellt:

 ls / home / himanshu / Downloads / pdfimages / -000.ppm -001.ppm-002.ppm-003.ppm

Fazit

PDFImages ist definitiv ein praktisches Werkzeug, wenn Ihre Arbeit mit PDF-Dateien und den darin enthaltenen Bildern zu tun hat, und wie Sie vielleicht schon bemerkt haben, ist es einfach zu erlernen sowie einfach zu bedienen. Weitere Informationen zu diesem Tool finden Sie auf der Manpage.