PDF-Dateien über Archive.org runterladen

Klaus_I

Cadet 4th Year
Registriert
Mai 2013
Beiträge
68
Hallo zusammen,

ich will einige alte PDF-Dateien von archivierten Websites (archive.org) möglichst komfortabel herunterladen.

Dazu habe ich eine Link-Liste mit den Captures angelegt und lade die pdf mit wget runter.
Code:
wget -r -nd -H -np -A .pdf -i linksammlung.txt -e robots=off

Das funktioniert bei den Seiten wo der Link zum PDF direkt sichtbar ist auch ganz gut. Aber bei verlinkten Seiten wie der folgenden kommt nichts raus:

http://web.archive.org/web/20151025...m/pruefungen/klausuren/uebungsklausuren.shtml

Vermutlich liegt das daran, dass die Links zu den PDF in einer eingeklappten Liste "mehr erfahren" versteckt sind. Die Dateien sind aber vorhanden und man kann sie manuell abrufen.

Hat jemand eine Idee, wie man da ohne viel Handarbeit rankommt?

Danke und Gruß

Klaus
 
Besten Dank, mangels grep musste ich ein paar mal zwischen Notepad und Excel hin- und herhüpfen und das manuell zurechttrimmen. Aber es läuft jetzt.
 
Zurück
Oben