Stemming

by Jojo on 20.07.08 · 14 comments

in Suchmaschinenoptimierung

Finde es interessant, das Stemming heute in SEO-Foren und SEO-Blogs so selten ein Thema ist. Im Abakus-Foren gab es erst 2 Threads in denen es dieses Jahr mal erwähnt wurde und das wenig ausführlich. Dabei sieht man doch Stemming mittlerweile bei einigen Suchergebnissen im Einsatz. Und ganz besonders Google scheint seinen Konkurrenten bei dem Thema ein paar Schritte voraus zu sein und nutzt Stemming wohl schon seit Ende 2003 und hat es seit den Anfängen wohl auch deutlich ausgebaut und verbessert. Sistrix hatte da schon letztes Jahr festgestellt, wie gut Google mittlerweile beim Thema Stemming ist. Da es auch dieses Wochenende nichts wirklich spannendes gibt, mach ich einfach mal wieder einen Ausflug von den News, der letzte ist ja schon recht lange her.

Was ist Stemming?
Dazu sei erstmal auf die Wikipedia verwiesen. Hier in deutsch und deutlich ausführlicher in englisch. Um es mal ganz kurz beispielhaft zu erklären. Durch Stemming wird erkannt, dass die Wörter “Norwegen”, “Norwegens”, “Norweger”, “norwegisch”, “norwegischer”, usw. alle auf den selben Wortstamm zurückzuführen sind. Entsprechend kann man dies dann im Algorithmus berücksichtigen und so zu besseren Suchergebnissen gelangen.

Stemming bei Google
Nehmen wir als Beispiel eine Suche nach ‘Norwegische Werft‘. Auf der Seite mit den Suchergebnissen sehen wir, das Google viele Wörter fett markiert hat, die nicht exakt so in unserer Suche enthalten sind. Google hat offensichtlich “gestemmt” und so dem Suchwort norwegische einige weitere Versionen zugeordnet: norwegischer, Norwegen, norwegischen und Norweger. Beim Suchwort Werft kam dann einfach noch die Mehrzahl Werften hinzu. Wenn man sich dann noch einmal als Beispiel eine Suche nach “Norwegen Werft” anschaut, sieht man dort, das auch dort Spiegel Online mit seinem Artikel auf Platz 1 steht, allerdings im Artikel das Wort “Norwegen” kein einziges Mal auftaucht, sondern lediglich folgende: norwegische, norwegischer, norwegisch und Norweger. Hier ist also offensichtlich Stemming im Einsatz. (Und nein, es gibt scheinbar keine Links, die mit dem Wort “Norwegen” auf den Artikel linken.)

Stemming bei Yahoo und MSN\Live
Yahoo scheint es noch zu schaffen von der Einzahl “Werft” auf die Mehrzahl “Werften” zu kommen. Zu “Norwegen” oder auch “norwegisch” scheint Yahoo aber kein Stemming zu betreiben. MSN\Live scheint nicht einmal den Schritt von “Werft” auf “Werften” zu machen, also zumindest was die deutsche Sprache angeht kein Stemming zu betreiben.

Sonstiges
Wenn ich mir viele meiner Referer anschau ist es interessant zu sehen wie oft doch Stemming zum Einsatz kommt. Es ist auch stark davon auszugehen, dass je weniger Suchergebnisse eine Suche bringt, je eher wird Google versuchen Stemming zum Einsatz zu bringen um so dann auch eine entsprechend große Auswahl an Kandidaten für die Top10 zu haben. Bei Ergebnissen die selber schon über 1 Millionen Ergebnisse haben, wird Stemming dann vermutlich unwichtiger.

Außerdem: Ich bin zwar kein Sprachenexperte, aber ich glaube, dass “deutsch” eine der Sprachen ist, bei denen Stemming besonders sinnvoll und wichtig ist!?

Ebenfalls interessant ist eine Suche nach QM2. Google sieht also den Zusammenhang zwischen QM2 und Queen Mary 2. Das ist wohl kein Stemming, aber ähnlich. Im Hintergrund wird sicherlich ohnehin eine Datenbank stehen in denen die Wörter einander zugeordnet sind und da können dann sicherlich auch solche Abkürzungen ihren Platz finden.

Was bedeutet dies nun für die Suchmaschinenoptimierung?
Muss ich mir nun also wenn ich das Wort “norwegische” verwende keine Sorgen mehr um mein Ranking bei der Suche nach Norwegen machen? Dem ist sicherlich nicht so. Das Ganze macht es einem vielleicht etwas einfacher einen Text einfach runterzuschreiben und sich keine Gedanken zu machen, bei welchen Suchen man nun gefunden werden möchte. Aber für ein optimales Ergebnis kommt man wohl trotzdem nicht darum herum, die Keywords für die man gefunden werden möchte, auch im Text genau so zu erwähnen. Ganz besonders dann, wenn sich ein paar Mühe geben bei diesen Suchen zu ranken.

Meinungen?
Hab ich Blödsinn geschrieben oder stimmt ihr dem zu? Welche Auswirkungen hat Stemming eurer Meinung nach auf die Suchmaschinenoptimierung?

Das war also Stemming, wenn der Artikel gefallen hat, schau ich mir demnächst vielleicht mal “Latent Semantic Indexing” an. Das Thema ist allerdings eine Nummer schwieriger und es ist fraglich, ob es derzeit überhaupt Auswirkungen auf die Suchergebnisse hat.

{ 1 trackback }

Blogqualität während des Sommerlochs « AdClicks-Agent.de
21.07.08 um 11:52

{ 13 comments… read them below or add one }

1 Damian 20.07.08 um 19:20

Habe mir dazu eigentlich kaum Gedanken gemacht. Wenn dies aber halbwegs stimmt, dann kann ich endlich etwas saubere bzw. schönere Texte verfassen. Manchmal ist es echt nervig, dass man ganze Satzkonstruktionen umstellen muss, damit das Keyword in der gewünschten Form vorliegt. Klar ist, dass dies weiterhin getan werden muss, aber nicht mehr ausschließlich.

Werde das demnächst mal genauer beobachten.

Gruß
Damian

2 Alex 20.07.08 um 19:23

Guter Artikel, aber ich glaube die Sache ist nur bei wirklich starken Seiten von Bedeutung.

3 übersetzerblog 20.07.08 um 21:26

Stemming bei Google beobachte ich schon seit langem. Apropos “Sprachexperte”: Mich und meine Kollegen als Übersetzer bringt diese “Funktion” zur Weissglut: Wenn man die Verbreitung eines Wortes oder Wortfolge in Paralleltexten prüfen will, ist man nun jedes Mal auf die Suche in Anführungszeichen angewiesen. Und Google weiss es selbst dann noch besser und verwurstelt ungefragt (!) und selbständig die Suchanfrage.
Für mich ist der Nutzen von Google durch Stemming stark gesunken, genauso wie das relative “Vertrauen” in die wiedergegebenen Ergebnisse.
Wozu bietet Google Funktionen wie Wildcards wenn der User ohnehin automatisiert bevormundet wird?
Eine solche ungefragte Manipulation der Suchergebnisse kann wohl auch SEOs nicht wirklich recht sein.
It’s a bug, not a feature ….

4 schlecht-geklont.de 20.07.08 um 23:44

Mich nervt es auch tierisch, dass Google wie bereits erwähnt selbst bei Suchbegriffen in Anführungszeichen noch teilweise mit Stemming arbeitet. Genauso wie ich immer häufiger Suchtreffer erhalte, bei denen das gesuchte Wort gar nicht in der Seite vorkommt, sondern nur in Links auf eine Seite (diese Angabe sieht man nur, wenn man auf den Link “im Cache” bei einem Suchtreffer klickt, dann sieht man das explizit oben angegeben – “folgende Suchbegriffe befinden sich nur in Links auf diese Webseite” oder so ähnlich).

Hier noch ein Linktipp zum Thema “Stemming” und rum um andere linguistische Probleme, die Suchmaschinenbetreiber lösen müssen: http://www.durchdenken.de/lewandowski/web-ir/?73_Informationslinguistische_Verfahren.html

5 der-Heiko 21.07.08 um 06:17

Moin Jojo,
was das bedeutet?

Das bedeutet, dass Du die eigenen Referer auch in einer Datenbank mitloggen solltest ;)

Seit ich SEM zusätzlich zu SEO mache musste ich an irgend einer Stelle eben die Begriffe mitloggen, die auch unbeabsichtigt kommen bei z.B. Broad Match Keywordbuchungen.

Genau dabei fallen solche Sachen wie “Ähnlichkeitsrecherche” auf, wusste gar nicht, dass das heute “Stemming” heisse *Schulterzuck*

Grüssle Heiko

6 Thomas 21.07.08 um 09:53

Hm, wäre da denn dann nicht auch der Begriff “Semantik” zu nennen?

7 gaj 21.07.08 um 13:20

Guter Artikel Jojo.

Finde die Entwicklung sehr positiv und das Beste daran ist, dass die Lesbarkeit für den Besucher enorm gesteigert wird.

8 jens 21.07.08 um 21:36

artikel finde ich auch gut. generel gute infos .
find ich eine der besten deutschen seiten zu dem thema (seo internetmarketing)

9 birk 25.07.08 um 16:27

Hallo,

finde den Artikel ganz und und auch sinnig, sich darüber Gedanken zu machen. Trotzdem denke ich nicht, dass Google einen Stemming-Algorithmus verwendet, sondern einfach nur eine Datenbank über verwandte Suchworte führt, die die User selbst füllen, indem sie ein neues (ähnliches) Suchwort eingeben und diese Eingabe von Google gespeichert wird. Lange Rede, kurzer Sinn: Ich denke, dass dir “norwegisch” und “Norwegen” nicht wegen der grammatikalischen Wortverwandschaft, sondern wegen der häufigen Suchwortkombination und der “Meinten Sie…” Klicks angeboten wird. Insofern ist es ebenso wahrscheinlich, bei “QM2″ “Queen Mary 2″ angezeigt zu bekommen wie “norwegisch” bei “Norwegen”.

Fazit: Beobachtung richtig, Fragestellung für SEO-Zwecke relevant, aber deine Theorie würde ich in Frage stellen wollen.

LG
birk

10 Jojo 25.07.08 um 17:48

Hallo birk,

da hast du sicherlich recht, ich glaube auch nicht dass da ein Algorithmus im Hintergrund arbeitet, sondern eine Datenbank. Für englisch gibt es die teilweise sogar kostenlos im Netz oder für einige tausend Dollar zu kaufen. In jedem Fall dürfte es für Google ein Schnäppchen sein, so etwas zu nutzen. Schon alleine die Tatsache, dass es eigentlich nie Fehler gibt, spricht dafür, dass es eine Datenbank ist.

Insofern sind die “Stemming-Verfahren” sicherlich nicht so spannend, sondern die Frage wie man diese Stemming-Datenbank dann einsetzt. (Mir ist durchaus bewußt, dass man dann langsam vielleicht nur noch bedingt von Stemming reden kann, aber das ist eigentlich für die Auswirkungen nicht so relevant.)

Ich denke, dass dir “norwegisch” und “Norwegen” nicht wegen der grammatikalischen Wortverwandschaft, sondern wegen der häufigen Suchwortkombination und der “Meinten Sie…” Klicks angeboten wird. Insofern ist es ebenso wahrscheinlich, bei “QM2″ “Queen Mary 2″ angezeigt zu bekommen wie “norwegisch” bei “Norwegen”.

Versteh ich nicht ganz … wer sollte in einer Suche “Norwegen” und “norwegisch” kombinieren? Und “meinten sie”-Links hab ich auch nirgendwo entdeckt und die machen auch keinen Sinn. Wie gesagt wird im Hintergrund wohl eine Datenbank stehen.

11 birk 25.07.08 um 18:02

Nochmal meine Gedanken zu “norwegisch” und “Norwegen”:

Also wenn ein User nach “Norwegen” sucht und im Anschluss beispielsweise eine Domain aufruft, in der gerade nicht “Norwegen” sondern “norwegisch” vorkommt (oder im Title oder sonstwo), dass Google dann diese beiden Worte assoziiert, vielleicht erstmal provisorisch. Durch diese leichte Verbindung wird es anderen Usern vorgeschlagen, und je öfter User tatsächlich dann darauf klicken, desto stärker wird diese Assoziation. Auf der Skala zwischen “völlig zusammenhangslos” bis “synonym” werden dann diese beiden Wörter miteinander verknüpft. Das ganze könnte implizit über die regulären Suchmaschinenlistungen passieren wie im Fall “norwegisch” und “Norwegen”, aber auch explizit, wie es schon passiert: Wenn du in Google nach der Marke “Kärcher” suchst, bekommst du unten als Suchalternativen die Konkurrenzmarken Nilfisk, Kränzle und Stihl angezeigt, ebenso wie Gerätebezeichnungen wie Hochdruckreiniger und Kehrmaschinen. Hat aber nichts mehr mit Stemming zu tun, sondern nur noch mit verwandten Suchbegriffen, bei denen Google glaubt, dass dem User damit geholfen ist (so wie ihm bei “Norwegen” und “norwegisch” auch geholfen ist.)

Alles nur Theorie, aber so in der Art stelle ich mir das vor.

12 birk 25.07.08 um 18:26

Mal Off Topic: Es gab heute in PR Update? Ich hab auf 12 Seiten keinen Unterschied festgestellt…

13 Jojo 25.07.08 um 18:27

@birk
Das dauert bis das Update durch ist, ist erst auch wenigen DC aufgespielt und die Toolbar kann daher noch alte Daten anzeigen. Oder hast du ein Tool genutzt, dass die DC abfragt? Bei Sistrix gibt es eins …

Leave a Comment

You can use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Previous post:

Next post: