Websites auf der Festplatte sichern

Bild des Benutzers Johannes Keller

"Nichts ist beständiger als der Wandel," sagte wohl Heraklit. Und das stimmt, - auch und besonders wenn es um den Inhalt von Websites geht. Wenn Sie eine Website lokal auf Ihrem PC speichern wollen, um Daten beim Umstieg auf ein neues System zu sichern, die Seite offline zu präsentieren oder um Design und Inhalt zu archivieren, dann brauchen Sie einen so genannten Webcrawler.

Zwar bieten auch die Browser die Möglichkeit, Seiten zu speichern. Dies ist aber eher umständlich, da Sie so jede Unterseite Ihres Webauftritts einzeln speichern müssten und auch die Links nicht mehr richtig funktionieren. Teilweise schaffen Browser-Addons hier Abhilfe. Es gibt aber auch Spezialisten für diese Anforderung: Mit einem Webcrawler können Sie mit einer Aktion Ihre gesamte Seite so abspeichern, dass Sie sie danach im Browser öffnen und benutzen können. Lediglich die Dinge, die extern aus dem Netz geladen werden, sind offline natürlich nicht verfügbar.

Ein Webcrawler (oder Bot oder Spider) kann ganz verschiedene Aufgaben in der Netzwelt erfüllen. Bots versorgen Suchmaschinen mit den aktuellen Informationen. Crawler können nach Stichworten suchen, Mailadressen heraus filtern oder sich auf der Suche nach einem anderen Objekt der Begierde spinnengleich an den Fäden des www entlang hangeln.

Für unsere Aufgabe braucht es einen Crawler, der sich durch die Verzweigungen eines Webauftrittes bewegt, diese Daten speichert und dabei die Struktur der Seite offline so ablegt, dass die Seite aus den abgespeicherten Daten heraus möglichst gut funktioniert.

Für diese Aufgabe gibt es viele Möglichkeiten. Viel genutzt und gemeinhin für gut befunden wären z.B.:

Die Links führen Sie auf die Herstellerseiten. Wir haben die Software teils nicht in der aktuellsten Version eingesetzt, aber gute Erfahrungen gemacht. Sinnvoll ist es, nach dem Speichern die Seite offline aufzurufen, um zu überprüfen, dass auch alles (und nicht viel mehr) gespeichert wurde, als Sie benötigen. Andernfalls müssten Sie die Optionen nochmal anpassen.

Sollte WinHTTrack die gewünschte Seite nicht speichern können, probieren Sie es noch einmal an einem anderen Computer - meist liegt es an Firewall-Einstellungen oder Ähnlichem.

Dieser Artikel wurde am 12.01.2022 aktualisiert.

Kommentare

6

Xaldon spuckt ne Fehlermeldung aus: http://www.xaldon.de/node/32: Error 404 - Not found

Die angegebene Seite konnte nicht gefunden werden.
Welche Browser-Addons sind denn zu empfehlen?

Bild des Benutzers Johannes Keller

Beim Verfassen der Netzmarginalie war die Seite online. Im Moment kommt generell eine Fehlermeldung. Ich hoffe, die Seite ist demnächst wieder verfügbar. Ansonsten bieten auch andere Download-Quellen das Tool an. Einfach mal eine Suchmaschine befragen und eine vertrauenswürdige und aktuelle Seite zum Download auswählen.

Ich habe die verschiedenen Browser-Addons nicht getestet. Für Firefox wurde mir mal ScrapBook empfohlen. Auch UnMHT kann ganz hilfreich sein. Aber hier kann ich - wie gesagt - keine eigenen Erfahrungen wiedergeben.

Ich habe heute von der Internetseite:
http://www.pc-magazin.de
das Programm: WinHTTrack downgeloadet und die
Internetseite: www.st-johannes-augsburg.de kopiert.
Hat alles super geklappt - Vielen Dank für die Empfehlung. :-)

Vor dem Umzug auf die Vernetzte Kirche wollte ich unseren kompletten bisherigen Internet-Auftritt unter der Adresse https://www.pamita.de sichern. Anforderung war, dass nach der Sicherung alle Seiten und verlinkte Unterseiten offline so gespeichert sind, dass sie ohne Internet-Zugriff durchgeklickt werden können. Allerdings werden die Original-Internet-Links eingebaut. Wenn die bisherig Seite also abgeschaltet wird, dann gehen diese Links ins Leere. Die Links müssten eigentlich auf den lokalen Ordner auf meiner Festplatte verweisen. Schade.

Bild des Benutzers Nadine Bachmann

Dieses "Phänomen" taucht in der Regel dann auf, wenn Sie auf Ihrer ursprünglichen Seite sogenannte "absolute Pfade" (z.B. www.ihredomain.de/aktuelles) für die Links innerhalb Ihrer Seite eingebunden haben.
Es wird grundsätzlich empfohlen, bei Verlinkungen auf eigene Unterseiten immer relative Pfade zu verwenden, also "www.ihredomain.de" weglassen - und nur z.B. "/aktuelles" angeben.

Dann funktionieren die Links auch noch wie gewünscht, wenn die Seite mithilfe einer Software wie HTTrack archiviert wurden.

Als MacOS-Nutzerin dachte ich: fein, die bieten was an, was für meinen Rechner auch geht, um die Daten zu sichern, die ich von meiner alten Webseite ins Archiv nehmen will.
Leider lädt es ewig und hat dann keine für mich erkennbare Oberfläche. Ich kann nicht programmieren und das Teil leider nicht nutzen.