PDF-Dateien über Archive.org runterladen

Klaus_I · 10. August 2019

Hallo zusammen,

ich will einige alte PDF-Dateien von archivierten Websites (archive.org) möglichst komfortabel herunterladen.

Dazu habe ich eine Link-Liste mit den Captures angelegt und lade die pdf mit wget runter.

Code:

wget -r -nd -H -np -A .pdf -i linksammlung.txt -e robots=off

Das funktioniert bei den Seiten wo der Link zum PDF direkt sichtbar ist auch ganz gut. Aber bei verlinkten Seiten wie der folgenden kommt nichts raus:

http://web.archive.org/web/20151025...m/pruefungen/klausuren/uebungsklausuren.shtml

Vermutlich liegt das daran, dass die Links zu den PDF in einer eingeklappten Liste "mehr erfahren" versteckt sind. Die Dateien sind aber vorhanden und man kann sie manuell abrufen.

Hat jemand eine Idee, wie man da ohne viel Handarbeit rankommt?

Danke und Gruß

Klaus

burglar225 · 10. August 2019

Code:

curl http://web.archive.org/web/20151025093901/https://www.fernuni-hagen.de/wirtschaftswissenschaft/studium/pruefungen/klausuren/uebungsklausuren.shtml | grep -oP "/web.*?\.pdf" > out.txt

Am Ende noch vor jeder Zeile http://web.archive.org/web/20151025093901 anhängen.

Klaus_I · 10. August 2019

Besten Dank, mangels grep musste ich ein paar mal zwischen Notepad und Excel hin- und herhüpfen und das manuell zurechttrimmen. Aber es läuft jetzt.

Suche

PDF-Dateien über Archive.org runterladen

Klaus_I

Ensign

burglar225

Lt. Commander

Klaus_I

Ensign

Ähnliche Themen