Suchmaschinen Wahn

Powie · 24. November 2006, 11:05:01

Aufgrund der Anregung habe ich mich mal mit meinem access.log ausseinandergesetzt und den Suchmaschinen.
In einer kleinen Funktion erkenne ich jetzt ob er Agent eine Suchmaschine ist. Als erstes ignoriere ich dann den Besucherzähler. Die Auswirkung auf die http://www.powie.de/cms/minstats.php\" rel=\"external nofollow\">Statistik sind oberdeutlich.
Suchmaschinen sind wahnsinnig..... am schlimmsten MSN, Google, Yahoo..... diese sind auf powie.de im Sekundentakt unterwegs. Bremsen kann man sie offenbar nicht wirklich...... manch einer macht sich die Mühe um sie überhaupt auf die Seite locken zu können, aber bei mir ist das ehr schon eine krankhafte Neugier die die Spider da an den Tag legen.
Was habt ihr für Ideen dazu?
Gleich vorab: der welcher in unzähligen Tutorials beschrieben wird ist eine mystische Erscheinung die es garnicht gibt, dne kennt weder das W3C, noch interessieren sich Spider daran!

brummi59 · 25. November 2006, 19:04:31

hi Thomas
vielleicht kannst du ja mittels einer robots.txt den Zugriff für Suma\'s auf deine Seiten einschränken
schon Wikipedia empfiehlt dazu:

Mit den folgenden Befehlen wird die komplette Webpräsenz vor einer Indexierung durch Webcrawler gesperrt.
User-agent: *
Disallow: /
[/quote]
Gruß Bernd

25. November 2006, 19:56:53

Da halten sich die doch nicht dran!!!

Powie · 26. November 2006, 11:31:21

an speziell dieses halten sie sich
Beispiel: www.archive.org -> powie.de suchen

/uploads/emoticons/icon_e_surprised.gif.a8707b3f35a569cb4cfe563fc72ef78d.gif\" alt=\":-o\" />
Ich will sie ja im Prinzip nicht abhalten, ich finde es bloss ein wenig sinnlos das die ständig und immer wieder Seiten durchsuchen die sich im Prinzip nie oder nur extrem selten ändern.

imara · 28. November 2006, 00:36:22

hm, soweit ich weis, bringt das aber schon was wenn man den Eintrag in die robots.txt macht. Müsste mich nochmal schlau machen, aber ich kenne eine Webseite die erfolgreich von Google ausgelassen wird.
Blöd ist natürlich wenn es lauter links auf diverse Posts gibt. Dann kommen die Suma\'s ja doch wieder :gaga:
Die Sitemap.xml bei Google hochladen bringt nix, dass haben aber warscheinlich schon andere vor mir erkannt. Ich hatte zumindest das umgekehrte Problem und da hat die Sitemap auch nix gebracht.

Powie · 28. November 2006, 15:41:15

ich habe noch etwas gefunden. Ich hatte eine selbst definierte Fehlerseite, unter anderem auch für den 404 Fehler. Die Spider steigen immer wieder über diese Seite ein, vielleicht weil sie die mal gefunden hatten und weil Links dahin gehen.

28. November 2006, 21:46:58

Original von imara Die Sitemap.xml bei Google hochladen bringt nix, dass haben aber warscheinlich schon andere vor mir erkannt. Ich hatte zumindest das umgekehrte Problem und da hat die Sitemap auch nix gebracht.
[/quote]
Kann ich nicht bestätigen. Funktioniert in beide Richtungen. Man kann inzwischen sogar wählen, mit welcher Geschwindigkeit Google spidern soll.
Yahoo (Slurp) hält sich beispielsweis an robots.txt:
User-agent: Slurp
Crawl-delay: 20
Crawl-delay ist ein Sekundenwert.

imara · 28. November 2006, 22:31:29

Also ich habe mich nochmal vergewissert und ja, die webseite wo ich meine wird erfolgreich von den Suchmaschinen vermieden mit hilfe von der robots.txt.

29. November 2006, 07:16:58

Original von Statler
Original von imara Die Sitemap.xml bei Google hochladen bringt nix, dass haben aber warscheinlich schon andere vor mir erkannt. Ich hatte zumindest das umgekehrte Problem und da hat die Sitemap auch nix gebracht.
[/quote]
Kann ich nicht bestätigen. Funktioniert in beide Richtungen. Man kann inzwischen sogar wählen, mit welcher Geschwindigkeit Google spidern soll.
Yahoo (Slurp) hält sich beispielsweis an robots.txt:
User-agent: Slurp
Crawl-delay: 20
Crawl-delay ist ein Sekundenwert.
[/quote]Google hält sich nicht daran, das habe ich irgendwo bei Google gelesen

29. November 2006, 10:21:35

Original von IndoorJo Google hält sich nicht daran, das habe ich irgendwo bei Google gelesen
[/quote]
Tut Google sehr wohl. Bei einem Projekt mit ca. zwei Millionen Links habe ich ganze Bereiche per robots.txt ausgeschlossen, welche auch nicht indiziert wurden. In der Sitemaps-Statistik werden diese auch korrekt ausgewiesen. Quellen?

29. November 2006, 10:59:32

Crawl-Delay ist eine Erweiterung des Robots Exclusion Protocol, die von Yahoo und Microsoft eingeführt wurde. In den Google-Webmaster-Infos findet sicht derzeit noch kein Hinweis darauf, dass Google diesen proprietären Befehl beachten würde.[/quote]
Des weiteren via Goggletools getestet mit folgender Auswirkung/Meldung:
robots.txt - URL      http://www.drachenforum.net/robots.txt
Ergebnisse analysieren
Wert    Ergebnis
Crawl-delay: 3600    Regel wird von Googlebot ignoriert
Noch Fragen?

29. November 2006, 11:10:03

Original von IndoorJo Noch Fragen?
[/quote]
Nein. Ich habe dich missverstanden. Ich haben aus \"daran\" gelesen, dass Du Google absprichst, sich an robots.txt zu halten (zu dem Crawl-Delay eigentlich auch gar nicht gehört).

Powie · 29. November 2006, 11:48:55

2 Millionen Links Projekt?
URL?

29. November 2006, 12:14:12

2 Millionen Links Projekt?[/quote]
Ja. Die anderen sind nicht ganz so groß. Ingesamt dürften es wohl mehrere Millionen sein. Wir arbeiten dabei direkt mit den Suchmaschinenunternehmen zusammen.
URL?[/quote]
Das ist nicht relevant. So viel sei gesagt: Beim letzten Check hatte eine der Websites PR8, die andere 7. Die anderen lagen bei 5 oder 6.

Powie · 29. November 2006, 12:18:08

Dann muss die Page so bekannt sein das sie ohnehin jeder kennt, dann kannst du uns doch auch die URL mitteilen!

powie.de Tech Forum

Neuigkeiten:

Suchmaschinen Wahn

Powie

brummi59

Powie

imara

Powie

imara

Powie

Powie