Elasticsearch Stemmer entfernt Buchstaben

Yuuri

Fleet Admiral
Registriert
Okt. 2010
Beiträge
13.928
Hallo zusammen,

jemand da, der sich mit der Elasticsearch auskennt?

Ich versuche grad den deutschen Stemmer anzuwenden...
Code:
GET _analyze
{
  "text": "hütte",
  "tokenizer": "standard",
  "filter": [
    {
      "type": "stemmer",
      "language": "german"
    }
  ]
}
Code:
{
  "tokens": [
    {
      "token": "hutt",
      "start_offset": 0,
      "end_offset": 5,
      "type": "<ALPHANUM>",
      "position": 0
    }
  ]
}

Kann mir jemand verraten, wo das e am Ende hin ist? In der Doku findet sich nichts und Google spuckt nichts Brauchbares aus. Nehme ich Englisch als Sprache, bleibt das e erhalten.

edit: Mit deutschem Analyzer verschluckt er gar zwei:

Code:
GET _analyze
{
  "text": "hüttabaee",
  "analyzer": "german"
}
Code:
{
  "tokens": [
    {
      "token": "huttaba",
      "start_offset": 0,
      "end_offset": 9,
      "type": "<ALPHANUM>",
      "position": 0
    }
  ]
}



LG
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Drahminedum
Zurück
Oben