Neuigkeiten:

still alive...

Hauptmenü

Suchmaschinen Wahn

Begonnen von Powie, 24. November 2006, 11:05:01

Vorheriges Thema - Nächstes Thema

Powie

Aufgrund der Anregung habe ich mich mal mit meinem access.log ausseinandergesetzt und den Suchmaschinen.
In einer kleinen Funktion erkenne ich jetzt ob er Agent eine Suchmaschine ist. Als erstes ignoriere ich dann den Besucherzähler. Die Auswirkung auf die http://www.powie.de/cms/minstats.php\" rel=\"external nofollow\">Statistik sind oberdeutlich.
Suchmaschinen sind wahnsinnig..... am schlimmsten MSN, Google, Yahoo..... diese sind auf powie.de im Sekundentakt unterwegs. Bremsen kann man sie offenbar nicht wirklich...... manch einer macht sich die Mühe um sie überhaupt auf die Seite locken zu können, aber bei mir ist das ehr schon eine krankhafte Neugier die die Spider da an den Tag legen.
Was habt ihr für Ideen dazu?
Gleich vorab: der  welcher in unzähligen Tutorials beschrieben wird ist eine mystische Erscheinung die es garnicht gibt, dne kennt weder das W3C, noch interessieren sich Spider daran!

brummi59

hi Thomas
vielleicht kannst du ja mittels einer  robots.txt den Zugriff für Suma\'s auf deine Seiten einschränken
schon Wikipedia empfiehlt dazu:
Mit den folgenden Befehlen wird die komplette Webpräsenz vor einer Indexierung durch Webcrawler gesperrt.
User-agent: *
Disallow: /

 
[/quote]
Gruß Bernd

mfg Brummi /uploads/emoticons/icon_e_wink.gif.3167d127940f44558fbf1ccd9b6d60a9.gif\" alt=\";-)\">




http://www.monika-linsz.de\" rel=\"external nofollow\">Private Arbeitsvermittlung Leipzig    


und http://www.forum-arbeitsvermittler.de\" rel=\"external nofollow\">Forum für Private Arbeitsvermittler


Da halten sich die doch nicht dran!!!

Powie

an speziell dieses halten sie sich
Beispiel: www.archive.org -> powie.de suchen  /uploads/emoticons/icon_e_surprised.gif.a8707b3f35a569cb4cfe563fc72ef78d.gif\" alt=\":-o\" />
Ich will sie ja im Prinzip nicht abhalten, ich finde es bloss ein wenig sinnlos das die ständig und immer wieder Seiten durchsuchen die sich im Prinzip nie oder nur extrem selten ändern.

imara

hm, soweit ich weis, bringt das aber schon was wenn man den Eintrag in die robots.txt macht. Müsste mich nochmal schlau machen, aber ich kenne eine Webseite die erfolgreich von Google ausgelassen wird.
Blöd ist natürlich wenn es lauter links auf diverse Posts gibt. Dann kommen die Suma\'s ja doch wieder  :gaga:
Die Sitemap.xml bei Google hochladen bringt nix, dass haben aber warscheinlich schon andere vor mir erkannt. Ich hatte zumindest das umgekehrte Problem und da hat die Sitemap auch nix gebracht.

Translation is more than transfering words from one language into another...


Powie

ich habe noch etwas gefunden. Ich hatte eine selbst definierte Fehlerseite, unter anderem auch für den 404 Fehler. Die Spider steigen immer wieder über diese Seite ein, vielleicht weil sie die mal gefunden hatten und weil Links dahin gehen.


Original von imara Die Sitemap.xml bei Google hochladen bringt nix, dass haben aber warscheinlich schon andere vor mir erkannt. Ich hatte zumindest das umgekehrte Problem und da hat die Sitemap auch nix gebracht.
[/quote]
Kann ich nicht bestätigen. Funktioniert in beide Richtungen. Man kann inzwischen sogar wählen, mit welcher Geschwindigkeit Google spidern soll.
Yahoo (Slurp) hält sich beispielsweis an robots.txt:


User-agent: Slurp
Crawl-delay: 20

 
Crawl-delay ist ein Sekundenwert.

imara

Also ich habe mich nochmal vergewissert und ja, die webseite wo ich meine wird erfolgreich von den Suchmaschinen vermieden mit hilfe von der robots.txt.

Translation is more than transfering words from one language into another...



Original von Statler

Original von imara Die Sitemap.xml bei Google hochladen bringt nix, dass haben aber warscheinlich schon andere vor mir erkannt. Ich hatte zumindest das umgekehrte Problem und da hat die Sitemap auch nix gebracht.
[/quote]
Kann ich nicht bestätigen. Funktioniert in beide Richtungen. Man kann inzwischen sogar wählen, mit welcher Geschwindigkeit Google spidern soll.
Yahoo (Slurp) hält sich beispielsweis an robots.txt:


User-agent: Slurp
Crawl-delay: 20

 
Crawl-delay ist ein Sekundenwert.
[/quote]Google hält sich nicht daran, das habe ich irgendwo bei Google gelesen


Original von IndoorJo Google hält sich nicht daran, das habe ich irgendwo bei Google gelesen
[/quote]
Tut Google sehr wohl. Bei einem Projekt mit ca. zwei Millionen Links habe ich ganze Bereiche per robots.txt ausgeschlossen, welche auch nicht indiziert wurden. In der Sitemaps-Statistik werden diese auch korrekt ausgewiesen. Quellen?

Crawl-Delay ist eine Erweiterung des Robots Exclusion Protocol, die von Yahoo und Microsoft eingeführt wurde. In den Google-Webmaster-Infos findet sicht derzeit noch kein Hinweis darauf, dass Google diesen proprietären Befehl beachten würde.[/quote]
Des weiteren via Goggletools getestet mit folgender Auswirkung/Meldung:

robots.txt - URL      http://www.drachenforum.net/robots.txt
Ergebnisse analysieren
Wert    Ergebnis
Crawl-delay: 3600    Regel wird von Googlebot ignoriert

Noch Fragen?


Original von IndoorJo Noch Fragen?
[/quote]
Nein. Ich habe dich missverstanden. Ich haben aus \"daran\" gelesen, dass Du Google absprichst, sich an robots.txt zu halten (zu dem Crawl-Delay eigentlich auch gar nicht gehört).

Powie

2 Millionen Links Projekt?
URL?

2 Millionen Links Projekt?[/quote]
Ja. Die anderen sind nicht ganz so groß. Ingesamt dürften es wohl mehrere Millionen sein. Wir arbeiten dabei direkt mit den Suchmaschinenunternehmen zusammen.
URL?[/quote]
Das ist nicht relevant. So viel sei gesagt: Beim letzten Check hatte eine der Websites PR8, die andere 7. Die anderen lagen bei 5 oder 6.

Powie

Dann muss die Page so bekannt sein das sie ohnehin jeder kennt, dann kannst du uns doch auch die URL mitteilen!

all your base are belong to us / Discord