Komplette (!) Website downloaden?

theschalker

Lt. Junior Grade
Registriert
Jan. 2007
Beiträge
507
Guten Morgen,

seit einiger Zeit nutzen wir immer mal wieder Rezepte von HelloFresh. Die Suchfunktion der Website ist allerdings stark eingeschränkt, sodass es sehr hilfreich wäre, die Rezepte, die allesamt als PDF vorliegen, einfach downloaden zu können. Da sich um tausende handelt, ist das manuell nicht machbar.
Daher meine Frage: Ist es möglich die komplette Website - oder eben nur alle enthaltenen PDF - downzuloaden?

Danke euch vorab!
 
Mit ein wenig Aufwand auf jeden Fall. Wenn kein Directory Browsing erlaubt ist, funktionierts auf jeden Fall mit einem Crawler.
Entweder schnell selbst einen programmieren oder nach Fertiglösungen im Internet suchen.
 
wget kann das (und der hat auch diverse Optionen und Möglichkeiten; nur PDFs downloaden könnte da sogar klappen) und gibts auch für Windows. Allerdings Kommandozeile.
 
  • Gefällt mir
Reaktionen: BioFarmer und theschalker
WinHTTrack hatte ich sogar bereits ausprobiert, bin aber kläglich gescheitert, da angeblich keine Dateien gefunden werden konnten. Genauso habe ich auch schon diverse andere Tools versucht, die man beim ersten Googeln so findet.

Gibt es evtl. eine gute Anleitung für WinHTTrack oder eine Alternative, die ihr namentlich benennen könnt und die mir evtl. noch nicht bekannt ist?

Edit:
wget hatte ich ganz überlesen. Danke, werde es parallel mal ausprobieren.
 
Beispiele wurden genannt, ob das legal ist, steht auf einem anderen Blatt.
 
Was sollte daran illegal sein, PDF downzuloaden und für private Zwecke zu nutzen? Den Download bieten sie ohnehin an, nur halt nicht den automatisierten.
 
  • Gefällt mir
Reaktionen: Lawnmower und Pupp3tm4st3r
Es ging mir nicht um die pdfs. Die gesamte Seite samt Struktur, ist so nicht erlaubt.
 
http://www.httrack.com/html/abuse.html

  • Ensure that you can copy the website
    • Are the pages copyrighted?
    • Can you copy them only for private purpose?
    • Do not make online mirrors unless you are authorized to do so
 
Die Kopie von öffentlich zur Verfügung gestelltem Material für private Zwecke (keine Weiterverbreitung) sollte mMn kein Problem darstellen.
Könnte man natürlich einen Juristen damit beauftragen, aber da die Kopien außer mir eh niemand zu Gesicht bekommt, ist der Aufwand wohl nicht gerechtfertigt bzw. wäre es für mich nicht.
 
Eine Website, bzw. deren Inhalte über die Seite selbst herunterzuladen entspricht dem Willen des Betreibers. Er stellt eine Plattform mit Informationen bereit und alle Informationen, die über die Plattform erreichbar sind, sind zur Nutzung auch so vorgesehen.

Was du jetzt aber versuchst ist nicht das Angebot des Betreibers zu nutzen, sondern seine Daten ohne den Gang über die Plattform abzugreifen. Neben dem eigentlichen Gedanken z.B. bei jedem Rezeptaufruf vorher Werbung zu schalten, ist es urheberrechtlich wahrscheinlich verboten (es sei denn explizit erlaubt) Daten abzugreifen, die in dieser Form nicht bereitstehen. Es geht dabei nicht darum, ob es dieselben Daten sind, an die du auch normal rankommst. Es geht dabei darum, WIE du an die Daten herankommst.

Du kannst ja z.B. im Kino zwar auch jeden Film angucken, aber nur zu den Bedingungen des Kinos. In den meisten Fällen möchte das Kino, dass du dafür Eintritt bezahlst. Ebenso ist es mit herunterladbarem Material. Du kannst zwar grundsätzlich jedes Material herunterladen, aber nur zu den Bedingungen des Website-Betreibers. Und eine Bedingung könnte sein, dass du vorher die entsprechende Rezeptseite aufrufst, damit er die Chance hat, dir Werbung zu schalten (du quasi dafür bezahlst).

Das solltest du UNBEDINGT prüfen und ggf. mit dem Webseiten-Betreiber Kontakt aufnehmen, ob dein Vorhaben so erlaubt ist. Ggf. steht sowas auch in irgendwelchen rechtlichen Texten (z.B. AGBs), aber auch die solltest du dir dann mal zu Gemüte führen. Im Falle von HelloFresh ist das nicht den ABGs erwähnt - damit ist es aber nicht automatisch erlaubt. Der Schutz von geistigem Eigentum gilt auch ohne explizite Erwähnung.

Kurzum: Erst juristisch Abklären, danach technisch bewerkstelligen.
 
"Neben dem eigentlichen Gedanken z.B. bei jedem Rezeptaufruf vorher Werbung zu schalten, ist es urheberrechtlich wahrscheinlich verboten"

aha... gewinnerzielungsabsicht durch werbung ist an urheberrecht gekoppelt?

das glaube ich nicht tim.
 
Das schöne ist das hier permanent spekuliert wird... und dabei wollte der TE nur wissen wie er die Seite "spiegeln" kann, mehr nicht. WinHTTrack sowie 'wget' wurden als Alternative genannt, ich denke und hoffe mal dass der TE damit etwas anfangen kann.

Hier herumzuraten oder zu spekulieren mit "es könnte sein das...", ist zwar nett gemeint. Ist in meinen Augen überflüssig. Dazu kommt (wir sind jetzt mal gutgläubig) möchte der TE die Rezepte für sich nutzen. Und wenn ich eine Internetseite aufbaue, muss ich damit rechnen das mir einer die Inhalte "mopst!" und ich denke mal so etwas haben die auch mit einbezogen.

Der eine oder andere wird jetzt bezüglich meiner Aussage an die Decke gehen, aber es ist nun mal so.
 
  • Gefällt mir
Reaktionen: bart0rn, Yuuri und Lawnmower
Erst einmal vielen Dank für die rege Beteiligung an meinem Anliegen!

Um kurz für Klarheit zu Sorgen: HelloFresh verwendet in den Rezepten, nach denen man suchen kann, in 8/10 Fällen nur den Begriff Gewürzmischung. Wenn ich nun also nach einem Rezept mit dem Gewürz Hello Mexico suche, erhalte ich nur einen Bruchteil der vorhandenen Rezepte. In den Rezepten, die man als PDF downloaden kann, ist dann jedoch Hello Mexico angegeben. Danach kann ich jedoch nur suchen, wenn ich die Rezepte als PDF heruntergeladen habe.

Das war es schon ;)
 
Domi83 schrieb:
WinHTTrack sowie 'wget' wurden als Alternative genannt, ich denke und hoffe mal dass der TE damit etwas anfangen kann.
nein, kann er ja scheinbar nicht, ich zitiere den TE
theschalker schrieb:
WinHTTrack hatte ich sogar bereits ausprobiert, bin aber kläglich gescheitert, da angeblich keine Dateien gefunden werden konnten. Genauso habe ich auch schon diverse andere Tools versucht, die man beim ersten Googeln so findet.
Ich denke, hier ist einfach das technische Wissen noch nicht so umfassend vorhanden und der TE braucht was noch einfacheres, denn meist scheitert man wenn es nicht wie bei einem Hello World Tutorial dann doch mal etwas mehr Wissen und Arbeit benoetigt um zum Ziel zu kommen. Geht jedem so
 
Jo, muss ich an dieser Stelle sogar erneuern. Es ist, als seien die Rezepte 'versteckt'. Wenn ich einen Link analysieren lasse, findet er nur die mir angezeigten Rezepte. Alle anderen bleiben verborgen und werden auch nicht heruntergeladen.
 
Wie schon gesagt, dann brauchst du einen Crawler, der einfach alle Links durchklickt, so wie du es tun würdest.
Mit etwas Übung ist sowas in zwei Stunden zusammengeklimpert, wenn die DOM Struktur sauber und nicht zu komplex ist.

Wenn die Links per JS dynamisch gebaut werden wirds nochmal etwas komplizierter.
 
Zurück
Oben