Webpages als HTML automatisiert speichern

Niklagaming

Lt. Junior Grade
Registriert
Okt. 2011
Beiträge
289
Hallo zusammen,
ich stehe momentan vor einem Problem das ich nicht so recht gelöst bekomme.
Ich möchte auf einer Website mehrere Seiten als HTML downloaden und abspeichern. Da es sich um viele Seiten handelt will ich das ganze automatisieren. Dabei taucht das Problem auf, dass die Seiten über einen Button aufgerufen werden, dessen Link sich aber mit jeder Seite ändert. Im Endeffekt würde mir ein Marko reichen welches die Seite mit fortlaufender Nummer speichert, dann auf den genannten Link klickt und sich dann "neustartet". Ich hab leider keine Ahnung wie ich das einigermaßen umsetze und bin mit googlen leider auch nicht weit gekommen. Meistens scheitert es einfach daran das sich der Link hinter dem besagten Button immer ändert.
Ich wäre sehr dankbar wenn mir jemand einen Denkanstoß geben könnte.

Vielen Dank!
 
Das Stichwort dazu heißt "Scraping". Es gibt einschlägige Addons für Browser.
Oder möchtest du X-mal wirklich 1:1 den selben Button von der selben Unterseite aufrufen? Das geht mit den normalen Tools eventuell nicht. Das ginge mit ein wenig Scripting falls du Grundlagen von PowerShell, Bash oder Python beherrschst.
 
Im Endeffekt ändert sich wirklich nur der Inhalt der Unterseite, der Rest bleibt gleich. Die Länge variiert aber, sprich die Position des Buttons ist nicht immer an der selben Stelle.
Mir fehlt die Idee wie ich mit Python auf eine Website zugreife und mich über Python auf der Website einlogge. Das ist denke ich mal das grundlegende Problem...
 
Mit den meisten Programmiersprachen lässt sich diese Aufgabe bewältigen. Für Python z.B. gibt es Bibliotheken wie Requests und Beautiful Soup mit denen du Webseiten auslesen und auch speichern kannst.
 
  • Gefällt mir
Reaktionen: BeBur
Ich habe mit Python und Selenium (Python Selenium Docs) schon mal einen Scraper gebaut. Es ist leicht zu nutzen und nutzt den Browser. Login, Inhalte von dynamischen Popups, etc. gehen damit einwandfrei.

Kann aber zu den, von @Bamu vorgeschlagenen Bibliotheken nix sagen, also was für deinen Zweck dann besser ist, das musst du selber herausfinden.
 
Beautiful Soup ist relativ einfach zu benutzen, Selenium würde ich nur verwenden, wenn die Inhalte nicht direkt ausgelesen werden können und man den Umweg über den Browserihnhalt gehen muß.
 
  • Gefällt mir
Reaktionen: p4cx
Zurück
Oben