Dienst gesucht: Automatischer Webseitendownload

neuhier08

Lt. Commander
Registriert
Sep. 2008
Beiträge
1.673
Hallo,

ich suche eine Website, die bei Änderungen einer bestimmten Seite, einen Download der kompletten Website durchführt.

Beispiel: news.orf.at postet eine neue nachricht, die gesamte website wird automatisch als PDF heruntergeladen.

Kennt wer so einen Dienst?
 
Da Webseiten in aller Regel nicht linear sind, Querverlinkungen haben, externe Inhalte einbinden, media sind, usw. kannst du die Idee mit einem PDF so ziemlich vollständig vergessen und dauercrawlen auch.
 
neuhier08 schrieb:
Hallo,
ich suche eine Website, die bei Änderungen einer bestimmten Seite, einen Download der kompletten Website durchführt.

Mal davon abgesehen, dass man den Download z. B. mittels cURL selbst durchführen könnte mit einer Bastellösung für die PDF-Generierung, würde ich empfehlen das Abrufen grundsätzlich über einen einen ATOM-/RSS-Feed zu erledigen.
Neben Anwendungen die man installieren kann (oder auch Lösungen für den Browser: z. B. Firefox), gibt es auch Seiten die News verschiedener Seiten zusammenführen.

Um beim Beispiel ORF zu bleiben...hier ein Beispiel...
Hier die Übersicht der RSS-Feeds: http://rss.orf.at/
Die News finden sich in: http://rss.orf.at/news.xml
Zur PDF kommt man wenn man die URL oben bei http://fivefilters.org/pdf-newspaper/ einträgt (unter "Show options" bitte "Fetch full text" selektieren, da man sonst nur die Überschriften bekommt).
Am Ende liefert die Seite ein PDF mit den Artikeln.

Es gibt diverse Dienste die einem aus RSS-/ATOM-Feeds ein PDF erzeugen.
Einfach mal nach den Stichworten RSS und PDF suchen.
Hier noch eine Seite mit Hinweisen: http://de.merq.org/blog/2011/01/12/rss-feeds-als-pdf-zeitung-zum-ausdrucken/
 
Zuletzt bearbeitet: (Ergänzung von Hinweisen)
Hibbelharry schrieb:
Da Webseiten in aller Regel nicht linear sind, Querverlinkungen haben, externe Inhalte einbinden, media sind, usw. kannst du die Idee mit einem PDF so ziemlich vollständig vergessen und dauercrawlen auch.

stimmt so nicht. wo ist das problelm? ich muss sie ja nicht rekursiv runterladen, es reicht die erste oder zweite ebene.

Muss nicht mal als PDF sein. Ideal wäre ein Download-Tool, wo ich eine bestimmte URL eingeben kann, und er lädet mir (um beim Beispiel news.orf.at) zu bleiben, nicht nur die erste Seite mit den News, sondern auch noch gleich die zweite Seite (Ebene) runter.
 
Zuletzt bearbeitet:
neuhier08 schrieb:
Ideal wäre ein Download-Tool, wo ich eine bestimmte URL eingeben kann, und er lädet mir (um beim Beispiel news.orf.at) zu bleiben, nicht nur die erste Seite mit den News, sondern auch noch gleich die zweite Seite (Ebene) runter.
Derartige Tools gibt es - eins davon ist HTTrack.
 
@Andreas: genau - das kann das beispielsweise - nur ist das onpremise und kein online-dienst :/

Aktueller Stand: Mit wget klappt es als übergangslösung auch ganz gut.
 
Zurück
Oben