Elasticsearch "начинается с" первое слово в фразе
Я пытаюсь реализовать навигацию A - Z для моего контента с Elasticsearch. Что мне нужно, так это отображение всех результатов, которые начинаются, например, с a, b, c,... и т. Д.
Я пробовал:
"query": {
"match_phrase_prefix" : {
"title" : {
"query" : "a"
}
}
}
Упомянутый выше запрос также отображает результаты, где внутри строки слово начинается с. Пример:
"title": "Apfelpfannkuchen",
"title": "Affogato",
"title": "Kalbsschnitzel a n A ceto Balsamico",
Я хочу отобразить только фразу, где первое слово начинается с.
Вот отображение, которое я использую:
$params = array(
'index' => 'my_index',
'body' => array(
'settings' => array(
'number_of_shards' => 1,
'index' => array(
'analysis' => array(
'filter' => array(
'nGram_filter' => array(
'type' => 'nGram',
'min_gram' => 2,
'max_gram' => 20,
'token_chars' => array('letter', 'digit', 'punctuation', 'symbol')
)
),
'analyzer' => array(
'nGram_analyzer' => array(
'type' => 'custom',
'tokenizer' => 'whitespace',
'filter' => array('lowercase', 'asciifolding', 'nGram_filter')
),
'whitespace_analyzer' => array(
'type' => 'custom',
'tokenizer' => 'whitespace',
'filter' => array('lowercase', 'asciifolding')
),
'analyzer_startswith' => array(
'tokenizer' => 'keyword',
'filter' => 'lowercase'
)
)
)
)
),
'mappings' => array(
'tags' => array(
'_all' => array(
'type' => 'string',
'index_analyzer' => 'nGram_analyzer',
'search_analyzer' => 'whitespace_analyzer'
),
'properties' => array()
),
'posts' => array(
'_all' => array(
'index_analyzer' => 'nGram_analyzer',
'search_analyzer' => 'whitespace_analyzer'
),
'properties' => array(
'title' => array(
'type' => 'string',
'index_analyzer' => 'analyzer_startswith',
'search_analyzer' => 'analyzer_startswith'
)
)
)
)
)
);
4 ответа
Если вы используете отображение по умолчанию, то оно не будет работать для вас.
Вы должны использовать ключевое слово токенизатор и строчный фильтр в отображении.
Отображение будет:
{
"settings": {
"index": {
"analysis": {
"analyzer": {
"analyzer_startswith": {
"tokenizer": "keyword",
"filter": "lowercase"
}
}
}
}
},
"mappings": {
"test_index": {
"properties": {
"title": {
"search_analyzer": "analyzer_startswith",
"index_analyzer": "analyzer_startswith",
"type": "string"
}
}
}
}
}
Поисковый запрос на test_index
:
{
"query": {
"match_phrase_prefix": {
"title": {
"query": "a"
}
}
}
}
Будет возвращено все название поста, начиная с a
В качестве альтернативы можно использовать span_near
:
GET your_index/_search
{
"query": {
"span_first": {
"match": {
"span_term": {
"your_field": "first_token"
}
},
"end": 1
}
},
"_source": "your_field"
}
Вы можете сделать это, просто используя поле с суффиксами .keyword или .raw. Например, чтобы найти все значения, начинающиеся с буквы «а»:
fieldName.keyword:a*
или
fieldName.raw:a*
Дополнительная информация о ключевых словах и текстовых полях
Я обновляю ответ @Roopendra в соответствии с этой сущностью. Таким образом, произошло обновление и в последних версиях search
а также index
инициализаторы вроде не работают, были заменены только на initializers
, также string
необходимо заменить на text
,
Таким образом, мы имеем следующий файл сопоставления:
{
"settings": {
"index": {
"analysis": {
"analyzer": {
"analyzer_startswith": {
"tokenizer": "keyword",
"filter": "lowercase"
}
}
}
}
},
"mappings": {
"test_index": {
"properties": {
"title": {
"analyzer": "analyzer_startswith",
"type": "text"
}
}
}
}
}
С помощью следующего запроса:
{
"query": {
"match_phrase_prefix": {
"title": {
"query": "a",
"max_expansions": 100
}
}
}
}
я добавил max_expansions
к запросу, потому что значение по умолчанию, кажется, 5
поэтому я получаю ошибочные результаты, в вашем случае значение может быть выше.