HTTrack speichert viel mehr als nur die angegebene URL

Ablagefach

Ensign
Registriert
Nov. 2018
Beiträge
202
Hallo zusammen,

ich versusche gerade seit längerem mit dem Programm HTTrack einen Teilbereich für den Offline Gebrauch zu speichern. Es handelt sich dabei um ein Forum. Davon möchte ich nur ein einzelnes Unterforum speichern.

Die richtige URL wäre dann folgende: www.fiktive-website.de/forum/automodell_delorian_dmc.html

Wenn ich diesen korrekten Link bei HTTrack einfüge, speichert mir das Programm aber viel mehr als nur das was unter der URL zu finden ist. Es sieht so aus, also würde HTTrack dann automatisiert einfach alles was unter www.fiktive-website.de/forum/ zu finden ist speichern, was hunderte Gigabyte wären.

Hier ein Screenshot zur Veranschaulichung:

htttrack.png



Kann jemand nachfollziehen was das Problem ist bzw. mein Anwendungsfehler?

Danke fürs durchlesen

Ablagefach
 
Ablagefach schrieb:
Es sieht so aus, also würde HTTrack dann automatisiert einfach alles was unter www.fiktive-website.de/forum/ zu finden ist speichern,
Ja. Genau das ist doch der Gag bei HTTrack. Das was hinter Links kommt auch gespeichert wird.

Ablagefach schrieb:
Kann jemand nachfollziehen
Nein. Ich kann das nicht nachvollziehen.
Das liegt auch daran, das Dein Link (http://www.fiktive-website.de/forum/automodell_delorian_dmc.html) nicht funktioniert und man einfach mal selbst testen kann.
 
  • Gefällt mir
Reaktionen: CoMo
  • Gefällt mir
Reaktionen: Ablagefach
andy_m4 schrieb:
Ja. Genau das ist doch der Gag bei HTTrack. Das was hinter Links kommt auch gespeichert wird.

Ja natürlich soll HHTrack speichern was HINTER dem Link kommt. Aber mein Problem ist, dass genau das Gegenteil passiert. HTTrack scheint auch alles zu speichern was VOR dem Link kommt.

Falls du es mal testen möchtest. Es geht um dieses Unterforum. Das wäre also der richtige Link:
https://www.motor-talk.de/forum/honda-civic-10-b1018.html
 
httrack folgt allen Links wenn du ihm nicht das Gegenteil sagst.
 
  • Gefällt mir
Reaktionen: Ablagefach
Ablagefach schrieb:
Ja natürlich soll HHTrack speichern was HINTER dem Link kommt. Aber mein Problem ist, dass genau das Gegenteil passiert. HTTrack scheint auch alles zu speichern was VOR dem Link kommt.

Alle verlinkten Seiten werden gespeichert. Auf der Seite gibt es einen Link zur Startseite des Forums. Also wird auch dahinter alles gespeichert.

Das Tool macht, was es soll. Du musst es halt richtig konfigurieren.
 
Du musst die Linktiefe bearbeiten und ob überhaupt weiterfolgende Links gespeichert werden sollen, denn in den Themen des ganzen Unterforums werden auch noch Links sein...

Und Ausnahmen müssen definiert werden. Sonst speicherst du am Ende das komplette Internet, falls da ein Google-Link dabei ist. :D Gib dich mal per User-Agent-Switcher als Googebot oder sowas aus und schau ob du auf eine Indexierung geleitet wirst. Damit könnte man besser arbeiten.

httrack ist recht tricky, man muss es richtig einstellen. Auch die Downloadgeschwindigkeit muss richtig eingestellt werden, sonst sitzt du da Jahre davor. Ich nutze das Tool nur für Downloads direkt von öffentllichen Servern, die sich per Browser indexieren lassen. Dafür ist es genial.

Bei "Verbindungen" steht bei dir auch ne "1". Grober Fehler. Schau mal, dass du die Anleitung für das Tool liest. Das geht schneller.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Ablagefach und CoMo
Mein Verständis bei der englischen Bedienungsanleitung hält sich in Grenzen, ich verstehe nicht viel von dem was dort steht. Auch die Aussage "Gib dich mal als User-Agent-Switcher oder Googebot aus" verstehe ich nicht.

Habe es gestern Abend noch einmal versucht und dann wieder einmal bei 7GB abgebrochen. Bei den Einstellungen habe ich diese Änderungen vorgenommen.

HTTrack Einestellungen Experten.png


HTTrack Einestellungen Filterregeln.png


Am Anfang scheint es immer gut zu klappen, bis dann auf einmal alle möglichen Threads aus den Unteforen für Alfa Romeo, Wohnwagen und Motorrädern auftauchen:
 
Du hast ja mutmasslich für dich ein Fehlverhalten in der Gratissoftware entdeckt - der Entwickler war so nett ein Logging

[] Fehlersuchmodus aktivieren

anzubauen ... was spricht dagegen den mal anzuschalte und reinzuschauen warum er anders traversiert.

Privat wüsste ich nicht, wie cool ich das finden würde, wenn in "meinem" Forum jemand nur GBYTE-weise Daten saugt (gibt ja zB ersteller von Fake-Seiten, Suchmaschinenboot für nie realsierte Objekte - nach der Idee der Green IT ist das alles nicht gratis zu haben ...)

Und warum denn nicht dort - https://forum.httrack.com/ fragen?

Ratlos D.
https://www.httrack.com/html/index.html oder
https://www.httrack.com/html/abuse.html hast du dir auch mal angesehen?
 
Zuletzt bearbeitet: (Nachtrag)
Den Fehlersuchmodus habe ich noch nicht gesehen, werde ich mir anschauen, mit dem Protokoll, komme ich bisher nicht weiter.

dms schrieb:
Und warum denn nicht dort - https://forum.httrack.com/ fragen?
Ich verstehe schon die englischen Tipps, Anleitung und FAQ nur so halb. Also mein Problem in englisch zu schildern führt wahrscheinlich zu noch viel mehr Verwirrung.


dms schrieb:
Privat wüsste ich nicht, wie cool ich das finden würde, wenn in "meinem" Forum jemand nur GBYTE-weise Daten saugt....
Eigentlich müssten für die paar Threads ein paar hundert Megabyte reichen. Ich will einen Teil für den privaten Gebrauch speichern, weil das Motor-Talk Forum zum Ende des Jahres geschlossen und gelöscht wird.
 
Wenns tatsächlich ein Bug ist, könnte man es vielleicht mit einem alternativen Tool wie beispielsweise wget probieren.
 
  • Gefällt mir
Reaktionen: Ablagefach
.one schrieb:
Das werden eher KB sein, denn es ist nur ein Seitenaufruf.

Es sollten schon ein paar hundert MB sein. Bei HTTRack hatte eine runtergeladene Threadseite so ca. 330 KB. Hochgerechnet auf die ganzen Threads und Seiten pro Thread kommen dann schon ein paar hunderte MB zusammen.
 
Zuletzt bearbeitet:
Das sind gute Nachrichten, hätte eh nicht geklappt mit Httrack, ich hatte schon aufgegeben.
 
Zurück
Oben