Описание тега standardanalyzer
1
ответ
Предотвращение индексации определенных документов в клоцене
Я создаю поисковый индекс с помощью clucene и хочу убедиться, что документы, содержащие оскорбительные термины, никогда не будут добавлены в индекс. Использование StandardAnalyzer со стоп-списком недостаточно, так как оскорбительный документ все еще…
14 авг '13 в 14:40
1
ответ
Lucene BooleanQuery неверный результат
Я создал Lucene RAMDirectory для сбора данных из разных источников и быстрого их поиска. Я потратил много часов, чтобы понять различные анализаторы и стратегии индексирования, но в некоторых случаях результат запроса не является ожидаемым. Вот демон…
20 июн '17 в 23:12
1
ответ
Lucene не соответствует строкам, имеющим верхние символы
Я использую Lucene Search Engine (v36) с анализатором StandardAnalyzer. Я использую MultiFieldQueryParser. Одно из моих полей установлено как NOT_ANALYZED, потому что это имя версии, содержащее буквенно-цифровые символы и точки. Когда это поле содер…
10 сен '12 в 16:06
3
ответа
Герцог - org.apache.lucene.analysis.standard.StandardAnalyzer
https://github.com/larsga/Duke - я использую Duke - для дедупликации данных. Я установил Duke (файлы jar - jar Duke, а также lucene jar добавлены в путь к классам).. Пример примера в github - https://github.com/larsga/Duke/wiki/SemanticDogfood When…
22 мар '16 в 17:42
2
ответа
Какой подходящий анализатор люцена использовать?
У меня проблемы с индексированием имен предметов с помощью цифр и символов. образец моих данных показан ниже: ANGLE BARS ORANGE - 4.0MM 2 - 1/2" B.I SQUARE TUBING 2" X 3" B.I. PIPE S-40 10MM 3/8" B.I SQUARE TUBING 1" X 2" PLYWOOD MARINE 3/4X4X8 PLYW…
15 фев '12 в 08:33
1
ответ
Изменить стандартный анализатор Lucene
Я пытаюсь найти документы по названию с помощью StandardAnalyzer из Lucene 4.10.3. Я читаю цитаты из файла и добавляю двойные кавычки для построения запроса с помощью этого: Query query = parser.parse("\""+doc.get("title")+"\""); Проблема в том, что…
23 фев '16 в 14:23
0
ответов
Lucene 4 - Как отказаться от числовых терминов в индексе?
Я использую Apache Tika для анализа XML-документа перед индексацией с помощью Apache Lucene. Это часть Тики: BodyContentHandler handler = new BodyContentHandler(10*1024*1024); Metadata metadata = new Metadata(); FileInputStream inputstream = new Fil…
10 фев '15 в 12:09
1
ответ
Lucene StandardAnalyzer, использующий Hunspell TokenFilter в C#?
Как я могу добавить TokenFilter в StandardAnalyzer в Lucene? Или есть другой анализатор, который делает то же самое, только позволяет мне также использовать TokenFilter? У меня есть TokenFilter для Hunspell в C#, который я не уверен, где / как подкл…
27 дек '11 в 12:53
1
ответ
Standard.StandardAnalyzer не найден в Lucene 4.7.0
Я новичок в Lucene. я пытаюсь сделать учебник здесь http://www.lucenetutorial.com/lucene-in-5-minutes.html Сайт импортирует: import org.apache.lucene.analysis.standard.StandardAnalyzer; однако, по моим данным, я не могу найти какой-либо стандарт в п…
08 мар '14 в 04:12
1
ответ
Стандартный анализатор - Apache Lucene
Я на самом деле разрабатываю систему, в которой вы вводите некоторые текстовые файлы в StandardAnalyzer, и содержимое этого файла затем заменяется выводом StandardAnalyzer (который токенизирует и удаляет все стоп-слова). Код, который я разработал до…
11 янв '12 в 18:54
1
ответ
Сохранение писем при токенизации на основе. с люценом
Хотел бы токенизировать строки на основе.,; и т. д. Однако хотелось бы сохранить адреса электронной почты, IP-адреса и тому подобное. Как использовать анализатор с люценцией для выполнения этой задачи? Следующий код, который я нашел в stackru, не со…
24 июн '16 в 07:43
1
ответ
Lucene поиск с использованием StopWords в StandardAnalyzer
У меня есть следующая проблема с использованием Lucene.NET 3.0.3. Мой проект анализирует документы, используя StandardAnalyzer с StopWord-List (объединенные немецкие и английские слова).Во время поиска я создаю свой поисковый запрос вручную и анализ…
12 ноя '13 в 14:31
1
ответ
Хиты одного слова в Lucene не найдены
Я создаю систему, которая просматривает статьи о разных вещах и выбирает некоторые описания об этом. В основном очень похоже на энциклопедию. Сначала я столкнулся с проблемой, когда, если я искал "кошку", я получал много обращений к таким статьям, к…
06 дек '13 в 11:34
1
ответ
Как создать и добавить значения в стандартный строчный анализатор в упругом поиске
Последние несколько дней я ходил по домам, пробуя разные порядки, но не могу понять, почему это не работает. Я пытаюсь создать индекс в Elasticsearch с помощью анализатора, который совпадает со "стандартным" анализатором, но сохраняет символы верхне…
24 сен '18 в 11:35
1
ответ
Lucene QueryParser противоречивое поведение
Следующая программа: import java.util.Arrays; import java.util.List; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.queryParser.ParseException; import org.apache.lucene.queryParser.QueryParser; import org.apach…
08 ноя '11 в 01:53
1
ответ
Как использовать стандартный анализатор Elasticsearch без строчных букв
Я пытаюсь создать анализатор в asticsearch, используя предустановки "стандартного" анализатора, но с одним изменением - без нижнего регистра слов. Я попытался объединить пробелы и стандартный анализатор так: PUT /standard_uppercase { "settings": { "…
21 сен '18 в 13:17
2
ответа
Как сделать букву "А" исключением в Lucene's StandardAnalyzer?
Я создал медицинский словарь в Android, используя Lucene. Слова и определения датские, и я использую StandardAnalyzer индексировать и искать записи. Идея состоит в том, что, когда я нажимаю на запись в моем ListView, другой Activity появляется со сл…
19 дек '12 в 10:31