Die Tagesschau vermeldet: robots.txt geht auch in witzig und Google bekommt unsere Startseite nicht!

by Jojo on 03.02.08 · 10 comments

in Google

Bisher dachte ich eigentlich die ARD wird recht gut mit GEZ-Geldern versorgt. Die robots.txt der Tagesschau schreit aber wohl nach einer Gebührenerhöhung. Offensichtlich muss man dort an den Server-Kapazitäten sparen. Anders ist diese robots.txt zumindest nicht zu erklären:

# Robots Exclusions for www.tagesschau.de
# based on a robots.txt by S.Mueller

User-agent: *
Disallow: /
Allow: /ausland/
Allow: /inland/
Allow: /wirtschaft/

# Google abbremsen mit non-standards
# http://www.google.com/webmasters/3.html#B3

User-agent: Googlebot
Disallow: /*.zip$
Disallow: /*.gif$
Disallow: /*.jpg$
Disallow: /
Allow: /aktuell/meldungen/
Allow: /ausland/
Allow: /inland/
Allow: /wirtschaft/

# Yahoo News Crawler
User-Agent: Yahoo-Newscrawler
Disallow: /
Allow: /xml/tagesschau-meldungen/
Allow: /xml/suchmaschinen_rss/
Allow: /aktuell/meldungen/
Allow: /ausland/
Allow: /inland/
Allow: /wirtschaft/

# Yahoo Multimedia Crawler
User-Agent: yahoo-mmcrawler
Disallow:

# POLIXEA – Suchdienst fuer Politik
User-agent: Polixea
Disallow:

# Bilder klauen ist nicht die feine Art
User-Agent: Googlebot-Image
Disallow: /

# AltaVista’s Photo Finder
User-Agent: vscooter
Disallow: /

# Related Links? Wozu denn das?

# Alexa
User-Agent: ia_archiver
Disallow: /

# Auch Sauger wollen wir sperren

User-agent: Teleport*
Disallow: /
User-agent: Webwhacker*
Disallow: /
User-agent: Webzip*
Disallow: /
User-agent: Net Attache*
Disallow: /
User-agent: SiteSnagger*
Disallow: /
User-agent: HTTrack*
Disallow: /
User-agent: WebCapture*
Disallow: /
User-agent: WebSauger*
Disallow: /

Wer hat es bittesehr für eine Gute Idee gehalten die Startseite auszuschließen?? So eine schicke PR7-Startseite möchte doch ihren LinkJuice ordentlich auf die Unterseiten verteilen? Und warum muss man den Googlebot denn auch noch ausbremsen? Können die sich keine ordentlichen Server leisten oder macht Google die Sperrung der Startseite ganz verrückt? Würde mich nicht wundern …..

Wirkliche SEO-Ziele können da wohl kaum dahinterstecken, zumal man auch noch Duplicated Content produziert. Beispielsweise gibt es da noch die tageschau.de …

Die weiteren Kommentare sind natürlich auch nicht ohne. Den Texter sollte Beckmann mal einladen, dann schalte ich auch mal ein … soll er uns mal erklären wie man zu dieser robots.txt gekommen ist …

Man merkt der robots.txt auf jeden Fall an, dass man nicht nach jedem Besucher lechzt und kein Geld mit Werbung verdienen muss. Die privatwirtschaftliche Konkurrenz wird es freuen. Dort ist man mittlerweile bei SEO und auch SEM oftmals doch schon sehr bemüht und holt sich entsprechende professionelle Hilfe ins Haus.

Danke an Gulli für den lustigen Hinweis.

{ 1 trackback }

Hilfe - meine Seite ist nicht mehr im Index
07.02.08 um 10:22

{ 9 comments… read them below or add one }

1 Nobody 03.02.08 um 22:10

Dies ist ein Metatest

2 Loewenherz 03.02.08 um 23:02

Die ist ja wirklich süß. Schade, dass ich um die Uhrzeit nicht mehr so laut lachen darf… ;-)

3 Tobi 03.02.08 um 23:34

Hahahaha das ist ja zu geil. Entsprechen die Befehle zum Ausschließen von Extensions SO der Spezifikation?

4 Florian 04.02.08 um 00:14

Ich bin zumindest auf dem Stand, dass Wildcards in Pfadangaben nicht zulässig bzw. definiert sind und auch das Schlüsselwort “allow” nicht definiert ist. Vielleicht bin ich ja auf einem alten Stand? Wer weiss mehr?! Eine andere Sache wäre natürlich noch, ob der Google-Bot trotz Non-Standard den Blödsinn verarbeitet?!

5 PromoMasters 04.02.08 um 08:33

Habt ihr schon mal gesehen wie der Googlebot in einen Server reinfährt den er gern mag? Jeder der das mal sieht hat Mitleid mit seinem Server und versucht diesen zu schützen. Meine Erfahrung zeigt, dass es gut ist neben den Webmaster Tools auch die robots.txt zu optimieren.

6 AlexDD 04.02.08 um 11:14

Die dürfen ja eh keine Werbung schalten… von daher wollen die wohl auch gar keine Besucher :P

7 Christian 04.02.08 um 14:36

Furchtbar, was da so alles mit GEZ-Geldern zusammengestümpert wird :-) Und diese Kommentare da zwischendrin…köstlich :-D

8 sanoba 08.02.08 um 11:58

Die Kommentare sind das beste. Wenn der Macher dieser robots.txt mal vorgestellt wird bin auch ich dabei…

9 Paul (BlogTopf) 20.02.08 um 17:53

Mich würde mal interessieren was aus dem gespräch geworden ist.

Leave a Comment

You can use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Previous post:

Next post: