Spider, Robots, Crawler – Schrecken des Internets?
Diesen interessanten Artikel hat mein Internetfreund Bernd Wohlers geschrieben. Er handelt von Dieben im Internet. War ganz neu für mich – dass es so was gibt. Und ich kann mir denken, dass es den einen oder anderen Blogger auch interessiert.
————————————————–
Viele Webseiten und Blogs werden als Hobby geführt und es werden immer mehr. Diejenigen, die sich diesem Hobby widmen, stecken viel Zeit, Arbeit und Liebe zum Metier in ihr Steckenpferd. Der Blogger ist im allgemeinen Mädchen für alles. Er ist Layouter und Fotograf, der seine Seiten gestaltet und er muss sich über die Inhalte, die er veröffentlichen möchte, Gedanken machen. Es ist ja nicht so einfach immer neuen lesenswerten Stoff aus dem Ärmel zu schütteln.
Ein sehr wichtiger, oft vernachlässigter Job ist dabei die Wartung seines Servers oder seiner Webparzelle bei einem Anbieter, der ihm den Zugang zum World Wide Web ermöglicht. Da ist immer etwas zu verbessern oder aufzuräumen und ganz wichtig ist es, ein wachsames Auge auf seine Logdateien zu werfen. Solche Logs schreiben alle Aktivitäten auf, unter anderen auch unsere Besucher. Mit den Besuchern möchte ich mich hier beschäftigen.
Bei vielen Millionen Seiten im World Wide Web geht unser Angebot in der Masse unter, keiner wird uns so finden. Hier helfen uns Suchmaschinen, bestimmt allen bekannt sind Namen wie “Google” und “Yahoo”. Suchmaschinen sind Programme, die das Internet unermüdlich Tag und Nacht nach neuen Inhalten durchsuchen und die gefundenen Adressen mit einer kurzen Inhaltsangabe der gefundenen Seite in Datenbanken ablegen und jedem, der es möchte, zur Verfügung stellen. Die Namen dieser Suchmaschinen, “Googlebot”, “Slurp” oder “MSNbot”, um einige herauszugreifen, können wir dann in unserer Logdatei finden. So sind diese Suchmaschinen, sie werden auch Spider, Robot, Crawler, Bot genannt, für uns sehr nützliche Besucher und wir freuen uns, wenn sie vorbeischauen.
Wir werden aber auch Besucher bekommen, die einfach lästig sind. Sie nennen keinen Namen, kommen oft aus Osteuropa und Asien, einige sind aber auch bei uns heimisch. Man kann sie nicht mit einer Firewall oder einem Virenscanner fernhalten.

Es sind Bots, mit unterschiedlichster Zielsetzung. Die einen sammeln Email-Adressen, um damit Spam zu versenden, andere suchen nach Schwachstellen in der Programmierung unserer Kontaktformulare und Gästebucher, Schwachstellen über die man später die ganze Welt mit Spam beglücken möchte. Wer seine Logdateien ansieht, erkennt sie aber schnell und kann sie mit einfachen Mitteln zum Teufel jagen.
Dann gibt es noch Leute, die nicht in der Lage sind, selbst Inhalte zu produzieren. Sie benutzen auch Bots und klauen damit gleich den kompletten Inhalt unserer Webseiten, um diesen dann ihrer eigenen Webseite hinzuzufügen. Man kann sie getrost mit Heuschrecken vergleichen, die ganze Landstriche leer fressen und dann weiterziehen. Auch sie sind gut in unserem Log zu erkennen und kann ihnen dann das Leben schwer machen. Nur, ganz los wird man die räuberische Horde nicht, sie kommen immer wieder mit neuen Adressen, sie sind dadurch schwer gänzlich auszusperren.

Warum machen die Internetpiraten das eigentlich? Money, leicht verdiente Penunse ist die Antwort. Für Email Adressen bekommt man Geld. Mit dem Verschicken von Spam kann man ganz einträglich leben, ohne einen Tropfen Schweiß zu vergießen.
Besonders schlimm sind die Content-Grabber die unsere kompletten Seiten kopieren. Nicht nur, dass sie hemmungslos alles stehlen, sie schaden uns auch noch beträchtlich. Die großen Suchmaschinen, wie “Google” merken rasch, dass da ein Artikel plötzlich mehrfach im Netz vorhanden ist. Das ist etwas, was die Suchmaschinen nicht mögen. Sie reagieren mit Abmahnungen und Abwertung im Wertesystem ihrer Suchmaschinen. Obendrein verbraten diese Content-Grabber das bei unserem Provider bezahlte Volumen an Gigabyte, den Traffic, in hohem Maß.
Sie werden mehr und mehr, die modernen Heuschrecken des Internets. Sie abzuwehren kostet viel Zeit, zuviel Zeit. Zeit die jeder lieber in die Gestaltung seiner Seite, seines Blogs stecken würde. Es ist Zeit, sie zu vertreiben! Mit einem wachsamen Auge auf die Logs ist es durchaus möglich den Schaden in Grenzen zu halten.
All die Mühe lohnt sich aber, lernt man doch mit der Zeit, wenn die Seite oder der Blog bekannter wird, nette Leute kennen, die, wenn sie selber das gleiche Hobby betreiben, einem auch mal hilfreich unter die Arme greifen. Also packen Sie es an – wann treffen wir uns im Net?
Bernd Wohlers
————————————–
Anmerkung: Bernd hat mir für WordPress ein Plugin empfohlen: Cystats heißt es, und hier kann man es downloaden. Auf dieser sehr aussagekräftigen Statistik kann man die Bots erkennen und deren IP-Adressen auf .htacess eintragen. Dann haben die Heuschrecken keinen Zugriff mehr auf das Blog (oder die Webseite).
IP-Adressen kann man übrigens hier lokalisieren.











Klingt nach einem tollen Plugin, das ich mit Sicherheit eingesetzt hätte. Leider ist es aber erst ab WP 2.3 aufwärts einsetzbar und ich habe bei WP 2.0 aufgehört upzudaten, weil mir jedes Update (und die gab es gefühlt andauernd) jedesmal meine ganzes Layout durcheinandergewirbelt hat und ich soviel Zeit brauchte, dass wieder in Ordnung zu bringen.
Manchmal verliert man schon den Glauben, dass es auf unserer doch eigentlich so schönen Welt noch irgend so etwas wie Respekt und Moral gibt.
Doch es gibt gottlob Menschen wie Bernd und Renate, die helfen, dass wir die dunkle Seite aufhellen können.
Danke für die Aufklärung und die wertvollen Tipps!
Karin