Hallo zusammen,
ich will einige alte PDF-Dateien von archivierten Websites (archive.org) möglichst komfortabel herunterladen.
Dazu habe ich eine Link-Liste mit den Captures angelegt und lade die pdf mit wget runter.
Das funktioniert bei den Seiten wo der Link zum PDF direkt sichtbar ist auch ganz gut. Aber bei verlinkten Seiten wie der folgenden kommt nichts raus:
http://web.archive.org/web/20151025...m/pruefungen/klausuren/uebungsklausuren.shtml
Vermutlich liegt das daran, dass die Links zu den PDF in einer eingeklappten Liste "mehr erfahren" versteckt sind. Die Dateien sind aber vorhanden und man kann sie manuell abrufen.
Hat jemand eine Idee, wie man da ohne viel Handarbeit rankommt?
Danke und Gruß
Klaus
ich will einige alte PDF-Dateien von archivierten Websites (archive.org) möglichst komfortabel herunterladen.
Dazu habe ich eine Link-Liste mit den Captures angelegt und lade die pdf mit wget runter.
Code:
wget -r -nd -H -np -A .pdf -i linksammlung.txt -e robots=off
Das funktioniert bei den Seiten wo der Link zum PDF direkt sichtbar ist auch ganz gut. Aber bei verlinkten Seiten wie der folgenden kommt nichts raus:
http://web.archive.org/web/20151025...m/pruefungen/klausuren/uebungsklausuren.shtml
Vermutlich liegt das daran, dass die Links zu den PDF in einer eingeklappten Liste "mehr erfahren" versteckt sind. Die Dateien sind aber vorhanden und man kann sie manuell abrufen.
Hat jemand eine Idee, wie man da ohne viel Handarbeit rankommt?
Danke und Gruß
Klaus