Powie 1 Posted November 24, 2006 Share Posted November 24, 2006 Aufgrund der Anregung habe ich mich mal mit meinem access.log ausseinandergesetzt und den Suchmaschinen. In einer kleinen Funktion erkenne ich jetzt ob er Agent eine Suchmaschine ist. Als erstes ignoriere ich dann den Besucherzähler. Die Auswirkung auf die Statistik sind oberdeutlich. Suchmaschinen sind wahnsinnig..... am schlimmsten MSN, Google, Yahoo..... diese sind auf powie.de im Sekundentakt unterwegs. Bremsen kann man sie offenbar nicht wirklich...... manch einer macht sich die Mühe um sie überhaupt auf die Seite locken zu können, aber bei mir ist das ehr schon eine krankhafte Neugier die die Spider da an den Tag legen. Was habt ihr für Ideen dazu? Gleich vorab: der welcher in unzähligen Tutorials beschrieben wird ist eine mystische Erscheinung die es garnicht gibt, dne kennt weder das W3C, noch interessieren sich Spider daran! Quote Link to post Share on other sites
brummi59 0 Posted November 25, 2006 Share Posted November 25, 2006 hi Thomas vielleicht kannst du ja mittels einer robots.txt den Zugriff für Suma's auf deine Seiten einschränken schon Wikipedia empfiehlt dazu: Mit den folgenden Befehlen wird die komplette Webpräsenz vor einer Indexierung durch Webcrawler gesperrt. User-agent: * Disallow: / Gruß Bernd Quote Link to post Share on other sites
Guest Posted November 25, 2006 Share Posted November 25, 2006 Da halten sich die doch nicht dran!!! Quote Link to post Share on other sites
Powie 1 Posted November 26, 2006 Author Share Posted November 26, 2006 an speziell dieses halten sie sich Beispiel: www.archive.org -> powie.de suchen Ich will sie ja im Prinzip nicht abhalten, ich finde es bloss ein wenig sinnlos das die ständig und immer wieder Seiten durchsuchen die sich im Prinzip nie oder nur extrem selten ändern. Quote Link to post Share on other sites
imara 0 Posted November 27, 2006 Share Posted November 27, 2006 hm, soweit ich weis, bringt das aber schon was wenn man den Eintrag in die robots.txt macht. Müsste mich nochmal schlau machen, aber ich kenne eine Webseite die erfolgreich von Google ausgelassen wird. Blöd ist natürlich wenn es lauter links auf diverse Posts gibt. Dann kommen die Suma's ja doch wieder :gaga: Die Sitemap.xml bei Google hochladen bringt nix, dass haben aber warscheinlich schon andere vor mir erkannt. Ich hatte zumindest das umgekehrte Problem und da hat die Sitemap auch nix gebracht. Quote Link to post Share on other sites
Powie 1 Posted November 28, 2006 Author Share Posted November 28, 2006 ich habe noch etwas gefunden. Ich hatte eine selbst definierte Fehlerseite, unter anderem auch für den 404 Fehler. Die Spider steigen immer wieder über diese Seite ein, vielleicht weil sie die mal gefunden hatten und weil Links dahin gehen. Quote Link to post Share on other sites
Guest Posted November 28, 2006 Share Posted November 28, 2006 Original von imara Die Sitemap.xml bei Google hochladen bringt nix, dass haben aber warscheinlich schon andere vor mir erkannt. Ich hatte zumindest das umgekehrte Problem und da hat die Sitemap auch nix gebracht. Kann ich nicht bestätigen. Funktioniert in beide Richtungen. Man kann inzwischen sogar wählen, mit welcher Geschwindigkeit Google spidern soll. Yahoo (Slurp) hält sich beispielsweis an robots.txt: User-agent: Slurp Crawl-delay: 20 Crawl-delay ist ein Sekundenwert. Quote Link to post Share on other sites
imara 0 Posted November 28, 2006 Share Posted November 28, 2006 Also ich habe mich nochmal vergewissert und ja, die webseite wo ich meine wird erfolgreich von den Suchmaschinen vermieden mit hilfe von der robots.txt. Quote Link to post Share on other sites
Guest Posted November 29, 2006 Share Posted November 29, 2006 Original von Statler Original von imara Die Sitemap.xml bei Google hochladen bringt nix, dass haben aber warscheinlich schon andere vor mir erkannt. Ich hatte zumindest das umgekehrte Problem und da hat die Sitemap auch nix gebracht. Kann ich nicht bestätigen. Funktioniert in beide Richtungen. Man kann inzwischen sogar wählen, mit welcher Geschwindigkeit Google spidern soll. Yahoo (Slurp) hält sich beispielsweis an robots.txt: User-agent: Slurp Crawl-delay: 20 Crawl-delay ist ein Sekundenwert. Google hält sich nicht daran, das habe ich irgendwo bei Google gelesen Quote Link to post Share on other sites
Guest Posted November 29, 2006 Share Posted November 29, 2006 Original von IndoorJo Google hält sich nicht daran, das habe ich irgendwo bei Google gelesen Tut Google sehr wohl. Bei einem Projekt mit ca. zwei Millionen Links habe ich ganze Bereiche per robots.txt ausgeschlossen, welche auch nicht indiziert wurden. In der Sitemaps-Statistik werden diese auch korrekt ausgewiesen. Quellen? Quote Link to post Share on other sites
Guest Posted November 29, 2006 Share Posted November 29, 2006 Crawl-Delay ist eine Erweiterung des Robots Exclusion Protocol, die von Yahoo und Microsoft eingeführt wurde. In den Google-Webmaster-Infos findet sicht derzeit noch kein Hinweis darauf, dass Google diesen proprietären Befehl beachten würde. Des weiteren via Goggletools getestet mit folgender Auswirkung/Meldung: robots.txt - URL http://www.drachenforum.net/robots.txt Ergebnisse analysieren Wert Ergebnis Crawl-delay: 3600 Regel wird von Googlebot ignoriert Noch Fragen? Quote Link to post Share on other sites
Guest Posted November 29, 2006 Share Posted November 29, 2006 Original von IndoorJo Noch Fragen? Nein. Ich habe dich missverstanden. Ich haben aus "daran" gelesen, dass Du Google absprichst, sich an robots.txt zu halten (zu dem Crawl-Delay eigentlich auch gar nicht gehört). Quote Link to post Share on other sites
Powie 1 Posted November 29, 2006 Author Share Posted November 29, 2006 2 Millionen Links Projekt? URL? Quote Link to post Share on other sites
Guest Posted November 29, 2006 Share Posted November 29, 2006 2 Millionen Links Projekt? Ja. Die anderen sind nicht ganz so groß. Ingesamt dürften es wohl mehrere Millionen sein. Wir arbeiten dabei direkt mit den Suchmaschinenunternehmen zusammen. URL? Das ist nicht relevant. So viel sei gesagt: Beim letzten Check hatte eine der Websites PR8, die andere 7. Die anderen lagen bei 5 oder 6. Quote Link to post Share on other sites
Powie 1 Posted November 29, 2006 Author Share Posted November 29, 2006 Dann muss die Page so bekannt sein das sie ohnehin jeder kennt, dann kannst du uns doch auch die URL mitteilen! Quote Link to post Share on other sites
Guest Posted November 29, 2006 Share Posted November 29, 2006 Dann muss die Page so bekannt sein das sie ohnehin jeder kennt, dann kannst du uns doch auch die URL mitteilen! Die zugehörige Marke ist ca. 97% aller Deutschen bekannt. Jedoch habe ich ein Interesse daran, dass man den Name Statler nicht mit einer reellen Person in Verbindung bringen kann. Dies könnte man dann aber. Quote Link to post Share on other sites
Powie 1 Posted November 29, 2006 Author Share Posted November 29, 2006 na dann soll dir die Anonymität gewährt sein [] Quote Link to post Share on other sites
Recommended Posts
Join the conversation
You can post now and register later. If you have an account, sign in now to post with your account.