Jump to content

Suchmaschinen Wahn


Recommended Posts

Aufgrund der Anregung habe ich mich mal mit meinem access.log ausseinandergesetzt und den Suchmaschinen.

In einer kleinen Funktion erkenne ich jetzt ob er Agent eine Suchmaschine ist. Als erstes ignoriere ich dann den Besucherzähler. Die Auswirkung auf die Statistik sind oberdeutlich.


Suchmaschinen sind wahnsinnig..... am schlimmsten MSN, Google, Yahoo..... diese sind auf powie.de im Sekundentakt unterwegs. Bremsen kann man sie offenbar nicht wirklich...... manch einer macht sich die Mühe um sie überhaupt auf die Seite locken zu können, aber bei mir ist das ehr schon eine krankhafte Neugier die die Spider da an den Tag legen.


Was habt ihr für Ideen dazu?


Gleich vorab: der welcher in unzähligen Tutorials beschrieben wird ist eine mystische Erscheinung die es garnicht gibt, dne kennt weder das W3C, noch interessieren sich Spider daran!

Link to post
Share on other sites

hi Thomas


vielleicht kannst du ja mittels einer robots.txt den Zugriff für Suma's auf deine Seiten einschränken

schon Wikipedia empfiehlt dazu:

Mit den folgenden Befehlen wird die komplette Webpräsenz vor einer Indexierung durch Webcrawler gesperrt.

User-agent: *
Disallow: /



Gruß Bernd

Link to post
Share on other sites

an speziell dieses halten sie sich


Beispiel: www.archive.org -> powie.de suchen :-o


Ich will sie ja im Prinzip nicht abhalten, ich finde es bloss ein wenig sinnlos das die ständig und immer wieder Seiten durchsuchen die sich im Prinzip nie oder nur extrem selten ändern.

Link to post
Share on other sites

hm, soweit ich weis, bringt das aber schon was wenn man den Eintrag in die robots.txt macht. Müsste mich nochmal schlau machen, aber ich kenne eine Webseite die erfolgreich von Google ausgelassen wird.


Blöd ist natürlich wenn es lauter links auf diverse Posts gibt. Dann kommen die Suma's ja doch wieder :gaga:


Die Sitemap.xml bei Google hochladen bringt nix, dass haben aber warscheinlich schon andere vor mir erkannt. Ich hatte zumindest das umgekehrte Problem und da hat die Sitemap auch nix gebracht.

Link to post
Share on other sites

ich habe noch etwas gefunden. Ich hatte eine selbst definierte Fehlerseite, unter anderem auch für den 404 Fehler. Die Spider steigen immer wieder über diese Seite ein, vielleicht weil sie die mal gefunden hatten und weil Links dahin gehen.

Link to post
Share on other sites
Original von imara

Die Sitemap.xml bei Google hochladen bringt nix, dass haben aber warscheinlich schon andere vor mir erkannt. Ich hatte zumindest das umgekehrte Problem und da hat die Sitemap auch nix gebracht.



Kann ich nicht bestätigen. Funktioniert in beide Richtungen. Man kann inzwischen sogar wählen, mit welcher Geschwindigkeit Google spidern soll.


Yahoo (Slurp) hält sich beispielsweis an robots.txt:

User-agent: Slurp
Crawl-delay: 20

Crawl-delay ist ein Sekundenwert.

Link to post
Share on other sites
Original von Statler
Original von imara

Die Sitemap.xml bei Google hochladen bringt nix, dass haben aber warscheinlich schon andere vor mir erkannt. Ich hatte zumindest das umgekehrte Problem und da hat die Sitemap auch nix gebracht.



Kann ich nicht bestätigen. Funktioniert in beide Richtungen. Man kann inzwischen sogar wählen, mit welcher Geschwindigkeit Google spidern soll.


Yahoo (Slurp) hält sich beispielsweis an robots.txt:

User-agent: Slurp
Crawl-delay: 20

Crawl-delay ist ein Sekundenwert.

Google hält sich nicht daran, das habe ich irgendwo bei Google gelesen
Link to post
Share on other sites
Original von IndoorJo

Google hält sich nicht daran, das habe ich irgendwo bei Google gelesen



Tut Google sehr wohl. Bei einem Projekt mit ca. zwei Millionen Links habe ich ganze Bereiche per robots.txt ausgeschlossen, welche auch nicht indiziert wurden. In der Sitemaps-Statistik werden diese auch korrekt ausgewiesen. Quellen?

Link to post
Share on other sites
Crawl-Delay ist eine Erweiterung des Robots Exclusion Protocol, die von Yahoo und Microsoft eingeführt wurde. In den Google-Webmaster-Infos findet sicht derzeit noch kein Hinweis darauf, dass Google diesen proprietären Befehl beachten würde.


Des weiteren via Goggletools getestet mit folgender Auswirkung/Meldung:

robots.txt - URL 	  http://www.drachenforum.net/robots.txt
Ergebnisse analysieren
Wert 	Ergebnis
Crawl-delay: 3600 	Regel wird von Googlebot ignoriert

Noch Fragen?

Link to post
Share on other sites
Original von IndoorJo

Noch Fragen?



Nein. Ich habe dich missverstanden. Ich haben aus "daran" gelesen, dass Du Google absprichst, sich an robots.txt zu halten (zu dem Crawl-Delay eigentlich auch gar nicht gehört).

Link to post
Share on other sites
2 Millionen Links Projekt?


Ja. Die anderen sind nicht ganz so groß. Ingesamt dürften es wohl mehrere Millionen sein. Wir arbeiten dabei direkt mit den Suchmaschinenunternehmen zusammen.


URL?


Das ist nicht relevant. So viel sei gesagt: Beim letzten Check hatte eine der Websites PR8, die andere 7. Die anderen lagen bei 5 oder 6.

Link to post
Share on other sites
Dann muss die Page so bekannt sein das sie ohnehin jeder kennt, dann kannst du uns doch auch die URL mitteilen!


Die zugehörige Marke ist ca. 97% aller Deutschen bekannt.


Jedoch habe ich ein Interesse daran, dass man den Name Statler nicht mit einer reellen Person in Verbindung bringen kann. Dies könnte man dann aber.

Link to post
Share on other sites
Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...