Neuigkeiten:

still alive...

Hauptmenü

Suchindex Wortlänge

Begonnen von Powie, 20. Juni 2007, 21:09:07

Vorheriges Thema - Nächstes Thema

Powie

Wenn man einen Suchindex erstellen würde über Wörter, wie wäre die Mindestlänge der Wörter am günstigsten. Ab Länge 3 oder erst ab 4 Buchstaben. Drunter lohnt es nicht die Dinge in den suchindex aufzunehmen.... Was würde man mitehmen, was müsste man ausschliessen?

mahe

Ich hab mir da auch schonmal Gedanken dazu gemacht und hab dann 3 genommen.
Ich weiß jetzt bloß nichtmehr warum /uploads/emoticons/icon_e_biggrin.gif.1a84f5257b36e14b36d04985314f877f.gif\" alt=\":-D\" />
Es hatte aber irgendwas mit PHP zu tun, also der Suchbegriff...

http://blog.mahe.at\" rel=\"external nofollow\">http://blog.mahe.at/wp-content/uploads/2007/06/88x31_1.jpg\" alt=\"88x31_1.jpg\">


Ja, diese Signatur dient zur Werbung!


Und dass ich meine Posts wiederfinde ...


Wenn man einen Suchindex erstellen würde über Wörter, wie wäre die Mindestlänge der Wörter am günstigsten. Ab Länge 3 oder erst ab 4 Buchstaben. Drunter lohnt es nicht die Dinge in den suchindex aufzunehmen.... Was würde man mitehmen, was müsste man ausschliessen?[/quote]
Ab inklusive vier Buchstaben. Schau dir die deutsche Sprache an: Es gibt kaum Wörter mit drei Buchstaben - außer Stoppwörter und Partikel, die man eh nicht in einem Suchindex haben möchte.
Sinnvollerweise nimmt man auch keine morphologisch veränderte Wörter auf, sondern bringt diese zurück in deren Grundform (Stemming). Außerdem schließt man auch längere Stoppwörter aus.
Weitere Stichwörter: Derivation, Porter-Stemmer, Information Retrieval, n-GRAM, KSTEM, Lemmatisierung.
Auch interessant: http://www.duden.de/deutsche_sprache/wort_in_den_duden.php\" rel=\"external nofollow\">Wie kommt ein Wort in den Duden?

Powie


all your base are belong to us / Discord