Elasticsearch Stemmer entfernt Buchstaben

Yuuri · 2. Juli 2018

Hallo zusammen,

jemand da, der sich mit der Elasticsearch auskennt?

Ich versuche grad den deutschen Stemmer anzuwenden...

Code:

GET _analyze
{
  "text": "hütte",
  "tokenizer": "standard",
  "filter": [
    {
      "type": "stemmer",
      "language": "german"
    }
  ]
}

Code:

{
  "tokens": [
    {
      "token": "hutt",
      "start_offset": 0,
      "end_offset": 5,
      "type": "<ALPHANUM>",
      "position": 0
    }
  ]
}

Kann mir jemand verraten, wo das e am Ende hin ist? In der Doku findet sich nichts und Google spuckt nichts Brauchbares aus. Nehme ich Englisch als Sprache, bleibt das e erhalten.

edit: Mit deutschem Analyzer verschluckt er gar zwei:

Code:

GET _analyze
{
  "text": "hüttabaee",
  "analyzer": "german"
}

Code:

{
  "tokens": [
    {
      "token": "huttaba",
      "start_offset": 0,
      "end_offset": 9,
      "type": "<ALPHANUM>",
      "position": 0
    }
  ]
}

LG

benneq · 2. Juli 2018

In der Doku steht doch alles nötige

https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-stemmer-tokenfilter.html
Und dort dann der Link zum "german" Stemmer (gibt dort auch noch 3 Alternativen): http://snowball.tartarus.org/algorithms/german/stemmer.html

Suche

Elasticsearch Stemmer entfernt Buchstaben

Yuuri

Fleet Admiral

benneq

Fleet Admiral

Ähnliche Themen