wget und die robots.txt

Ganze Internetprojekte herunterladen mit wget – robots.txt ignorieren

Ich wäre fast verzweifelt. Mit wget kann man bekanntlich ganze Internetprojekte rekursiv herunterladen. Mit einem einfachen wget -r -l2 [URL] kann man ein ganzes Projekt inklusive links bis zur zweiten Ebene herunterladen. Dies mache ich öfter wenn zB ein Tutorial auch offline verfügbar sein soll oder ich die Gefahr wittere das es eines tages einfach verschwinden könnte.

Nun hatte ich einmal so ein Tutorial [1] das sich nicht herunterladen lies. Die Ursache war mir völlig unbekannt und man wget brachte mich auch nicht wirklich weiter bis ich in einer Dokumentation [2] auf -e robots=off stieß.

Ich schaute in die robots.txt auf der besagten Seite und stellte fest das dort folgendes eingetragen war:

User-agent: *
Disallow: /

Die robots.txt ist eigentlich an Suchmaschinen gerichtet um anzuweisen das eine Seite nicht indexiert wird. In diesem Fall ist das natürlich völliger Unfug den Anleitungen im Internet sind selbstverständlich zum gefunden und gelesen zu werden. Da wget aber die robots.txt beachtet fühlt er sich angesprochen und lädt die besagten Dateien nicht herunter.

Die obige Anweisung wird also erweitert: wget-e robots=off -r -l2 [URL] und wget wird die robots.txt ignorieren und wie gewünscht alles herrunterladen.


Nachtrag:

möchte man das wget dauerhaft die robot.txt ignoriert kann man diese Option auch in die Konfigurationsdatei von wget schreiben. diese befindet sich im im home (~/.wgetrc). Falls nicht muss sie noch erstellt werden.


  1. http://bladehunter.lima-city.de/lua/book/index.html
  2. https://wiki.ubuntuusers.de/wget/

Root oder Sudo?

Root oder Sudo? Die Frage der Fragen …

Stand: 13/03/2018 -> log

Achtung, dieser Artikel ist an erfahrene Benutzer gerichtet. Nichtbefolgen oder eigenmächtiges Handeln kann zum Verlust des Systems und/ oder Daten führen!

Oft höre und lese ich die Frage „Soll ich als root oder lieber mit sudo administrationsarbeiten durchführen?“ Genauso oft höre ich „Bei Ubuntu habe ich gar kein root-Passwort!„. Ich möchte in diesem Beitrag ganz kurz auf diese beiden Fragen eingehen. Also, der Benutzer root wird grundsätzlich nur mit login-passwort benötigt wenn der eigentliche Systemverwalter gar keinen Benutzeraccount auf diesem Computer/ System  hat oder benötigt. Dies trifft z.B auf einer Serverfarm zu, da wäre es Unsinn wenn der root sich extra einen Benutzer anlegen müsste um irgend welche Veränderungen vorzunehmen.

Ist der Computer eine Arbeitsstation, wie sie jeder zuhause hat, an der ganz normal gearbeitet wird und jemand im Haushalt auch die Administration übernimmt, ist der Benutzer root absolut unnötig. Dies bedeutet nicht das man ihn nicht benötigt, sondern das man für diesen kein Passwort benötigt. Wieso das so ist? Ganz einfach …

Diejenigen die sowieso einen Benutzeraccount auf diesem Rechner besitzen, können jederzeit (falls sie ein sudoers sind, dazu gleich mehr) mit sudo <KOMMANDO> einen Befehl mit root-rechten ausführen. Benötigt man wirklich einmal eine echte root-login shell hilft der Befehl sudo -i

Dieser startet ohne weitere Parameter eine root-login-shell! In der Datei /etc/sudoers befinden sich alle Benutzer die sudo einsetzen dürfen. Bearbeiten darf man diese Datei nur mit dem dafür speziel vorgesehenen Tool visudo, nur dann ist gewährleistet das die Datei syntaktisch einwandfrei ist. Hat man den neuen sudo-Zugang getestet und ist dieser einwanfrei kann man getrost in der Datei /etc/shadow das Passwort des Benutzers root herrauslöschen. Die Zeile könnte dann so aussehen:

root::17068:0:99999:7:::

Die Passwörter in dieser Datei sind übrigends verschlüsselt und das Passwort würde sich hinter dem ersten Doppelpunkt befinden. Will man ein Passwort wieder herstellen und den root-Zugang wieder zulassen hilft ein sudo passwd root … zack ist alles wieder beim alten.

So, das sollte ersteinmal gekärt sein, root ist also absolut unnötig. Ist root auf diese weise deaktiviert gibt es noch einen positiven Nebeneffekt: Für root benötigt man zwei Passwörter, einmal für den eigentlichen Benutzer und ein zweites mal für sudo -i. Vor alleim bei rootservern für die Wartung aus der Ferne ist es Gold wert.

Kleiner Tipp zum Schluss: Bei solchen Arbeiten am System, bei dem man sich bei einem kleinen Tippfehler selbst aussperren kann, IMMER eine zweite Konsole öffnen mit z.B STRG-ALT-F2! Bei Fernwartung entsprechend ein zweites mal per ssh einloggen im Hintergrund. DANN ERST LOSLEGEN!

Fragen zum Thema root und sudo? Gerne hier im Forum


Änderungslog des Beitrags:

  • 03/02/2018 – erste Version des Beitrags
  • 13/03/2018 – kleine unbedeutende Änderungen wie zB Rechtschreibung.

Zurück zum Hauptseite Linux

Raspberry Pi – raspbian SSH

SSH vor dem ersten Start des Raspberry Pi aktivieren

Version: 28/05/2017

Hier nur eine schnelle beiläufige Information zum Betriebssystem Raspbian für den Raspberry Pi. Es betrifft die Standarteinstellung für den SSH Zugriff.

Seit Release des Raspbian Images von 25.11.2016 ist der SSH-Server standardmäßig deaktiviert. Offensichtlich aus Sicherheitsgründen. Wenn man nun wie ich die Pi’s lediglich Headless betreibt, war ich schon verwundert wieso ich auf einem neu installieren Gerät keine SSH Verbindung herstellen kann.

Also wie aktiviert man nun wieder den SSH-Server auf dem Raspberry Pi? Ganz einfach: Die neu installierte SD-Karte nochmal flott an einem anderen Rechner mounten und in der Bootpartition eine leere Textdatei mit dem Namen ssh erstellen.

Das war es auch schon, wichtig ist lediglich das die Datei exakt so heißt. Nach dem nächsten Bootvorgang ist der SSH-Server wieder ganz normal zu erreichen.

Die Standart Zugangsdaten lauten:

Username: pi
Passwort: raspbian

Das Passwort sollte und muss man nach dem ersten Login mit passwd ändern! Unter Umständen je nach Internetzugang und Einstellungen des Routers ist der Pi auch von außerhalb erreichbar.

Zur Grundkonfiguration sollte man sich sudo raspi-config genauer anschauen, als erstes sollte man dann die Speicherkarte expandieren.

Raspbian ist [ HIER ] erhältlich.

Anregungen und Diskussion hier: G+