Описание тега standardanalyzer

1 ответ

Предотвращение индексации определенных документов в клоцене

Я создаю поисковый индекс с помощью clucene и хочу убедиться, что документы, содержащие оскорбительные термины, никогда не будут добавлены в индекс. Использование StandardAnalyzer со стоп-списком недостаточно, так как оскорбительный документ все еще…
14 авг '13 в 14:40
1 ответ

Lucene BooleanQuery неверный результат

Я создал Lucene RAMDirectory для сбора данных из разных источников и быстрого их поиска. Я потратил много часов, чтобы понять различные анализаторы и стратегии индексирования, но в некоторых случаях результат запроса не является ожидаемым. Вот демон…
1 ответ

Lucene не соответствует строкам, имеющим верхние символы

Я использую Lucene Search Engine (v36) с анализатором StandardAnalyzer. Я использую MultiFieldQueryParser. Одно из моих полей установлено как NOT_ANALYZED, потому что это имя версии, содержащее буквенно-цифровые символы и точки. Когда это поле содер…
10 сен '12 в 16:06
3 ответа

Герцог - org.apache.lucene.analysis.standard.StandardAnalyzer

https://github.com/larsga/Duke - я использую Duke - для дедупликации данных. Я установил Duke (файлы jar - jar Duke, а также lucene jar добавлены в путь к классам).. Пример примера в github - https://github.com/larsga/Duke/wiki/SemanticDogfood When…
22 мар '16 в 17:42
2 ответа

Какой подходящий анализатор люцена использовать?

У меня проблемы с индексированием имен предметов с помощью цифр и символов. образец моих данных показан ниже: ANGLE BARS ORANGE - 4.0MM 2 - 1/2" B.I SQUARE TUBING 2" X 3" B.I. PIPE S-40 10MM 3/8" B.I SQUARE TUBING 1" X 2" PLYWOOD MARINE 3/4X4X8 PLYW…
15 фев '12 в 08:33
1 ответ

Изменить стандартный анализатор Lucene

Я пытаюсь найти документы по названию с помощью StandardAnalyzer из Lucene 4.10.3. Я читаю цитаты из файла и добавляю двойные кавычки для построения запроса с помощью этого: Query query = parser.parse("\""+doc.get("title")+"\""); Проблема в том, что…
23 фев '16 в 14:23
0 ответов

Lucene 4 - Как отказаться от числовых терминов в индексе?

Я использую Apache Tika для анализа XML-документа перед индексацией с помощью Apache Lucene. Это часть Тики: BodyContentHandler handler = new BodyContentHandler(10*1024*1024); Metadata metadata = new Metadata(); FileInputStream inputstream = new Fil…
10 фев '15 в 12:09
1 ответ

Lucene StandardAnalyzer, использующий Hunspell TokenFilter в C#?

Как я могу добавить TokenFilter в StandardAnalyzer в Lucene? Или есть другой анализатор, который делает то же самое, только позволяет мне также использовать TokenFilter? У меня есть TokenFilter для Hunspell в C#, который я не уверен, где / как подкл…
27 дек '11 в 12:53
1 ответ

Standard.StandardAnalyzer не найден в Lucene 4.7.0

Я новичок в Lucene. я пытаюсь сделать учебник здесь http://www.lucenetutorial.com/lucene-in-5-minutes.html Сайт импортирует: import org.apache.lucene.analysis.standard.StandardAnalyzer; однако, по моим данным, я не могу найти какой-либо стандарт в п…
08 мар '14 в 04:12
1 ответ

Стандартный анализатор - Apache Lucene

Я на самом деле разрабатываю систему, в которой вы вводите некоторые текстовые файлы в StandardAnalyzer, и содержимое этого файла затем заменяется выводом StandardAnalyzer (который токенизирует и удаляет все стоп-слова). Код, который я разработал до…
11 янв '12 в 18:54
1 ответ

Сохранение писем при токенизации на основе. с люценом

Хотел бы токенизировать строки на основе.,; и т. д. Однако хотелось бы сохранить адреса электронной почты, IP-адреса и тому подобное. Как использовать анализатор с люценцией для выполнения этой задачи? Следующий код, который я нашел в stackru, не со…
24 июн '16 в 07:43
1 ответ

Lucene поиск с использованием StopWords в StandardAnalyzer

У меня есть следующая проблема с использованием Lucene.NET 3.0.3. Мой проект анализирует документы, используя StandardAnalyzer с StopWord-List (объединенные немецкие и английские слова).Во время поиска я создаю свой поисковый запрос вручную и анализ…
1 ответ

Хиты одного слова в Lucene не найдены

Я создаю систему, которая просматривает статьи о разных вещах и выбирает некоторые описания об этом. В основном очень похоже на энциклопедию. Сначала я столкнулся с проблемой, когда, если я искал "кошку", я получал много обращений к таким статьям, к…
06 дек '13 в 11:34
1 ответ

Как создать и добавить значения в стандартный строчный анализатор в упругом поиске

Последние несколько дней я ходил по домам, пробуя разные порядки, но не могу понять, почему это не работает. Я пытаюсь создать индекс в Elasticsearch с помощью анализатора, который совпадает со "стандартным" анализатором, но сохраняет символы верхне…
1 ответ

Lucene QueryParser противоречивое поведение

Следующая программа: import java.util.Arrays; import java.util.List; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.queryParser.ParseException; import org.apache.lucene.queryParser.QueryParser; import org.apach…
08 ноя '11 в 01:53
1 ответ

Как использовать стандартный анализатор Elasticsearch без строчных букв

Я пытаюсь создать анализатор в asticsearch, используя предустановки "стандартного" анализатора, но с одним изменением - без нижнего регистра слов. Я попытался объединить пробелы и стандартный анализатор так: PUT /standard_uppercase { "settings": { "…
2 ответа

Как сделать букву "А" исключением в Lucene's StandardAnalyzer?

Я создал медицинский словарь в Android, используя Lucene. Слова и определения датские, и я использую StandardAnalyzer индексировать и искать записи. Идея состоит в том, что, когда я нажимаю на запись в моем ListView, другой Activity появляется со сл…