Komplette (!) Website downloaden?

theschalker · 23. Mai 2019

Guten Morgen,

seit einiger Zeit nutzen wir immer mal wieder Rezepte von HelloFresh. Die Suchfunktion der Website ist allerdings stark eingeschränkt, sodass es sehr hilfreich wäre, die Rezepte, die allesamt als PDF vorliegen, einfach downloaden zu können. Da sich um tausende handelt, ist das manuell nicht machbar.
Daher meine Frage: Ist es möglich die komplette Website - oder eben nur alle enthaltenen PDF - downzuloaden?

Danke euch vorab!

SaxnPaule · 23. Mai 2019

Mit ein wenig Aufwand auf jeden Fall. Wenn kein Directory Browsing erlaubt ist, funktionierts auf jeden Fall mit einem Crawler.
Entweder schnell selbst einen programmieren oder nach Fertiglösungen im Internet suchen.

Lawnmower · 23. Mai 2019

wget kann das (und der hat auch diverse Optionen und Möglichkeiten; nur PDFs downloaden könnte da sogar klappen) und gibts auch für Windows. Allerdings Kommandozeile.

cyberpirate · 23. Mai 2019

WinHTTrack oder auch PureSync um mal 2 zu nennen

theschalker · 23. Mai 2019

WinHTTrack hatte ich sogar bereits ausprobiert, bin aber kläglich gescheitert, da angeblich keine Dateien gefunden werden konnten. Genauso habe ich auch schon diverse andere Tools versucht, die man beim ersten Googeln so findet.

Gibt es evtl. eine gute Anleitung für WinHTTrack oder eine Alternative, die ihr namentlich benennen könnt und die mir evtl. noch nicht bekannt ist?

Edit:
wget hatte ich ganz überlesen. Danke, werde es parallel mal ausprobieren.

VoAlgdH · 23. Mai 2019

Beispiele wurden genannt, ob das legal ist, steht auf einem anderen Blatt.

theschalker · 23. Mai 2019

Was sollte daran illegal sein, PDF downzuloaden und für private Zwecke zu nutzen? Den Download bieten sie ohnehin an, nur halt nicht den automatisierten.

VoAlgdH · 23. Mai 2019

Es ging mir nicht um die pdfs. Die gesamte Seite samt Struktur, ist so nicht erlaubt.

konkretor · 23. Mai 2019

wo steht das? bitte mal nen Referenz hinzufügen

r0b0t · 23. Mai 2019

Man kann auch google benutzen, um auf einer bestimmten Webseite zu suchen. Vielleicht genügt das in diesem Fall.

"hähnchenbrust" "pdf" site:www.hellofresh.de

https://www.google.com/search?&q="h...="hähnchenbrust"+"pdf"+site:www.hellofresh.de

bart0rn · 23. Mai 2019

http://www.httrack.com/html/abuse.html

Ensure that you can copy the website
- Are the pages copyrighted?
- Can you copy them only for private purpose?
- Do not make online mirrors unless you are authorized to do so

TrueAzrael · 23. Mai 2019

Die Kopie von öffentlich zur Verfügung gestelltem Material für private Zwecke (keine Weiterverbreitung) sollte mMn kein Problem darstellen.
Könnte man natürlich einen Juristen damit beauftragen, aber da die Kopien außer mir eh niemand zu Gesicht bekommt, ist der Aufwand wohl nicht gerechtfertigt bzw. wäre es für mich nicht.

SoDaTierchen · 23. Mai 2019

Eine Website, bzw. deren Inhalte über die Seite selbst herunterzuladen entspricht dem Willen des Betreibers. Er stellt eine Plattform mit Informationen bereit und alle Informationen, die über die Plattform erreichbar sind, sind zur Nutzung auch so vorgesehen.

Was du jetzt aber versuchst ist nicht das Angebot des Betreibers zu nutzen, sondern seine Daten ohne den Gang über die Plattform abzugreifen. Neben dem eigentlichen Gedanken z.B. bei jedem Rezeptaufruf vorher Werbung zu schalten, ist es urheberrechtlich wahrscheinlich verboten (es sei denn explizit erlaubt) Daten abzugreifen, die in dieser Form nicht bereitstehen. Es geht dabei nicht darum, ob es dieselben Daten sind, an die du auch normal rankommst. Es geht dabei darum, WIE du an die Daten herankommst.

Du kannst ja z.B. im Kino zwar auch jeden Film angucken, aber nur zu den Bedingungen des Kinos. In den meisten Fällen möchte das Kino, dass du dafür Eintritt bezahlst. Ebenso ist es mit herunterladbarem Material. Du kannst zwar grundsätzlich jedes Material herunterladen, aber nur zu den Bedingungen des Website-Betreibers. Und eine Bedingung könnte sein, dass du vorher die entsprechende Rezeptseite aufrufst, damit er die Chance hat, dir Werbung zu schalten (du quasi dafür bezahlst).

Das solltest du UNBEDINGT prüfen und ggf. mit dem Webseiten-Betreiber Kontakt aufnehmen, ob dein Vorhaben so erlaubt ist. Ggf. steht sowas auch in irgendwelchen rechtlichen Texten (z.B. AGBs), aber auch die solltest du dir dann mal zu Gemüte führen. Im Falle von HelloFresh ist das nicht den ABGs erwähnt - damit ist es aber nicht automatisch erlaubt. Der Schutz von geistigem Eigentum gilt auch ohne explizite Erwähnung.

Kurzum: Erst juristisch Abklären, danach technisch bewerkstelligen.

Matthew Sobol · 23. Mai 2019

"Neben dem eigentlichen Gedanken z.B. bei jedem Rezeptaufruf vorher Werbung zu schalten, ist es urheberrechtlich wahrscheinlich verboten"

aha... gewinnerzielungsabsicht durch werbung ist an urheberrecht gekoppelt?

das glaube ich nicht tim.

Domi83 · 23. Mai 2019

Das schöne ist das hier permanent spekuliert wird... und dabei wollte der TE nur wissen wie er die Seite "spiegeln" kann, mehr nicht. WinHTTrack sowie 'wget' wurden als Alternative genannt, ich denke und hoffe mal dass der TE damit etwas anfangen kann.

Hier herumzuraten oder zu spekulieren mit "es könnte sein das...", ist zwar nett gemeint. Ist in meinen Augen überflüssig. Dazu kommt (wir sind jetzt mal gutgläubig) möchte der TE die Rezepte für sich nutzen. Und wenn ich eine Internetseite aufbaue, muss ich damit rechnen das mir einer die Inhalte "mopst!" und ich denke mal so etwas haben die auch mit einbezogen.

Der eine oder andere wird jetzt bezüglich meiner Aussage an die Decke gehen, aber es ist nun mal so.

theschalker · 23. Mai 2019

Erst einmal vielen Dank für die rege Beteiligung an meinem Anliegen!

Um kurz für Klarheit zu Sorgen: HelloFresh verwendet in den Rezepten, nach denen man suchen kann, in 8/10 Fällen nur den Begriff Gewürzmischung. Wenn ich nun also nach einem Rezept mit dem Gewürz Hello Mexico suche, erhalte ich nur einen Bruchteil der vorhandenen Rezepte. In den Rezepten, die man als PDF downloaden kann, ist dann jedoch Hello Mexico angegeben. Danach kann ich jedoch nur suchen, wenn ich die Rezepte als PDF heruntergeladen habe.

Das war es schon

abcddcba · 24. Mai 2019

Domi83 schrieb:
WinHTTrack sowie 'wget' wurden als Alternative genannt, ich denke und hoffe mal dass der TE damit etwas anfangen kann.

nein, kann er ja scheinbar nicht, ich zitiere den TE

theschalker schrieb:
WinHTTrack hatte ich sogar bereits ausprobiert, bin aber kläglich gescheitert, da angeblich keine Dateien gefunden werden konnten. Genauso habe ich auch schon diverse andere Tools versucht, die man beim ersten Googeln so findet.

Ich denke, hier ist einfach das technische Wissen noch nicht so umfassend vorhanden und der TE braucht was noch einfacheres, denn meist scheitert man wenn es nicht wie bei einem Hello World Tutorial dann doch mal etwas mehr Wissen und Arbeit benoetigt um zum Ziel zu kommen. Geht jedem so

theschalker · 24. Mai 2019

Jo, muss ich an dieser Stelle sogar erneuern. Es ist, als seien die Rezepte 'versteckt'. Wenn ich einen Link analysieren lasse, findet er nur die mir angezeigten Rezepte. Alle anderen bleiben verborgen und werden auch nicht heruntergeladen.

SaxnPaule · 24. Mai 2019

Wie schon gesagt, dann brauchst du einen Crawler, der einfach alle Links durchklickt, so wie du es tun würdest.
Mit etwas Übung ist sowas in zwei Stunden zusammengeklimpert, wenn die DOM Struktur sauber und nicht zu komplex ist.

Wenn die Links per JS dynamisch gebaut werden wirds nochmal etwas komplizierter.

Komplette (!) Website downloaden?

Lt. Junior Grade

Fleet Admiral

Maître de cuisine Pro

Fleet Admiral Pro

Lt. Junior Grade

VoAlgdH

Gast

Lt. Junior Grade

VoAlgdH

Gast

Artikeldetektiv

Lt. Junior Grade

Rear Admiral

Commodore

Commodore Pro

Matthew Sobol

Gast

Rear Admiral

Lt. Junior Grade

Rear Admiral

Lt. Junior Grade

Fleet Admiral

Ähnliche Themen