Описание тега stemming
The process for reducing inflected words to their stem.
1
ответ
Тм пакет: stemCompletion не работает
У меня есть простой код для анализа текста. Перед созданием DTM я применяю stemCompletion. Однако, результат этого - кое-что, что я не понимаю, делаю ли я это неправильно, или это единственный способ, которым он ведет себя. Я ссылался на эту ссылку …
16 янв '17 в 10:10
1
ответ
Нужно объяснение на языке Stemmer of Solr
Я использую Nutch с Solr для разработки поисковой системы для арабских текстов. Мне нужно реализовать стеммер на моих арабских текстах, и пока я работал с Solr Stemmer, я обнаружил, что он обеспечивает эти два фильтра. <filter class="solr.ArabicN…
21 май '12 в 07:46
0
ответов
Портер Стеммер используется в поиске по сайту
Я использовал версию PHP алгоритма определения слова Портера Стеммера, доступную здесь http://tartarus.org/~martin/PorterStemmer/ для поисковой системы на моем сайте. Проблема в том, что я только что заметил, что слово "смешной" меняется на "веселый…
15 мар '12 в 14:44
0
ответов
<генератор объекта <genexpr> в 0x11ad5dbf8> вместо основы слова?
Следующий код должен выводить стволовые слова, но вместо этого я получаю объект генератора. from nltk.stem import SnowballStemmer english_stemmer = SnowballStemmer('english') words = ["presumably", "presume", "multiply"] print(stemmer.stem(w) for w …
27 ноя '17 в 16:59
1
ответ
Snowball Stemmer: плохой французский язык
Я имею дело с некоторыми задачами NLP. Мои входные данные представляют собой текст на французском языке, поэтому в моем контексте можно использовать только Snowball Stemmer. Но, к сожалению, он продолжает давать мне плохие стебли, поскольку это не у…
29 июн '18 в 08:31
1
ответ
Как мне настроить и использовать KStem в Java?
Я хочу остановить слова в моем документе и сосредоточиться на KStem. Я работаю в Eclipse и настроил Lucene, загрузив jar-файл lucene-core в папку lib и добавив его в путь сборки. Я также сделал это для файла JAR KStem. Однако я не могу найти какие-л…
05 окт '12 в 08:26
1
ответ
Стволовые слова и создание индекса без стоп-слов с помощью Lucene 4.0
У меня следующая проблема: есть несколько текстовых документов, которые мне нужно проанализировать и создать индекс, но без стоп-слов и для определения терминов. Я могу сделать это вручную, но я слышал от коллеги о Lucene, который может делать это а…
04 янв '13 в 08:45
1
ответ
Несколько результатов одной переменной при применении метода "stemCompletion"
У меня есть корпус, содержащий данные журнала 15 наблюдений за 3 переменными (ID, заголовок, аннотация). Используя R Studio, я читаю данные из файла.csv (одна строка на наблюдение). При выполнении некоторых операций по добыче текста у меня возникли …
05 окт '14 в 16:23
2
ответа
Точный поиск слов в Solr
У меня есть вопрос, который тесно связан с этим вопросом. В моей схеме у меня есть поле <field name="text" type="textgen" indexed="true" stored="true" required="true"/> Это дает точное совпадение, т.е. stemming инвалидов есть = есть Возможно л…
21 июн '11 в 16:14
1
ответ
Может ли Solr вернуть фактический конечный запрос, который использовался при использовании синонимов и основ?
Я хотел бы иметь возможность показать в своем пользовательском интерфейсе, какие термины запроса использовались для решения окончательного запроса. Например, я мог бы напечатать запрос "запустить", но за кулисами solr будет использовать stemming, чт…
19 авг '10 в 14:35
2
ответа
Как получить такие слова, как *olog и *ology, чтобы получить / лемматизировать к одному корню?
Я играл с кучей стеммеров и лемматизаторов в NLTK, но никто не делает то, что я хочу. У меня есть несколько слов, таких как "радиолог", "радиология", "кардиолог", "кардиология" и т. Д., Где я бы хотел, чтобы * олог пошел в то же ведро, что и * ологи…
06 апр '16 в 23:58
4
ответа
Токенайзер, Стоп Word Удаление, Стебминг в Java
Я ищу класс или метод, который принимает длинную строку из многих сотен слов и токенов, удаляет стоп-слова и основы для использования в ИК-системе. Например: "Большой толстый кот, сказал" твой самый смешной парень, которого я знаю "кенгуру..." токен…
03 ноя '09 в 00:04
2
ответа
Стемминг в питоне
Я хочу остановить мой текст, который я читаю из файла CSV. Но после стебл-оператора текст не меняется. Тогда я где-то читал, что мне нужно использовать POS-теги, чтобы это произошло, но это не помогло. Подскажите, пожалуйста, что я делаю не так? Поэ…
16 июн '17 в 08:40
1
ответ
Lucene - лемматизация поиска по умолчанию
Есть ли Lucene поиск по умолчанию сделать лемматизацию /stemming на слова? Например, при использовании кода в этом примере слова в документах используются как есть или они преобразуются в их базовую форму (например, Managing -> manag), и если да, то…
27 ноя '14 в 11:23
1
ответ
Есть ли стеммер для упругого поиска, который может заменить "сломанный" на "сломанный"
Вот что я хотел бы, чтобы стеммер сделал: ломать: ломать ломать: ломать ломать: ломать ввод: вводить ввод: вводить ввод: вводить Я проиндексировал поле следующим образом: "body": { "type": "text", "fields": { "stemmed": { "type": "text", "analyzer":…
04 ноя '16 в 20:15
0
ответов
Добавление языка в pystemmer
Я хотел бы использовать pystemmer с whoosh, но нет поддержки моего языка. Я нашел два файла снежного кома для моего языка ( Snowball), и я сделал файлы *.c из них, как рекомендовано здесь. Теперь я хотел бы включить файлы *.c в pystemmer. Я добавил …
21 окт '12 в 18:48
1
ответ
Основа текста в Java
Я в поисках возможности Stemm строк в Java. Сначала я хотел сделать это с помощью lucene, но все примеры, которые я нашел в Интернете, устарели. (SnowballAnalyzer, PorterStemmer, ...) Я просто хочу выделить целые предложения. public static String st…
07 июн '14 в 10:26
1
ответ
Классификация текста - использование стеммера ухудшает результаты?
Там есть статья об анализе настроений арабского языка. В начале страницы 5 говорится, что: "Эксперименты также показывают, что слова, стоящие перед выделением и классификацией признаков, почти всегда ухудшают результаты". Позже на той же странице он…
22 янв '14 в 21:47
4
ответа
Существует ли самообучающийся инструмент с открытым исходным кодом?
Мне нужно реализовать какой-то стеммер / лемматизатор. У меня есть несколько слов в разных формах (несколько тысяч). Это не морфологический словарь, просто небольшая его часть. Это хорошая идея, чтобы выучить stemmer автоматически из файла иметь? Ес…
09 апр '13 в 16:46
2
ответа
MySQL полный текст с основами
Я создаю небольшую функцию поиска для моего сайта. Я беру запрос моего пользователя, определяю ключевые слова и затем выполняю полнотекстовый поиск MySQL по ключевым словам. Проблема в том, что MySQL рассматривает основы как буквальные. Вот процесс,…
14 янв '10 в 04:11