Описание тега stemming

Описание тега Вопросы с тегом

The process for reducing inflected words to their stem.

1 ответ

Тм пакет: stemCompletion не работает

У меня есть простой код для анализа текста. Перед созданием DTM я применяю stemCompletion. Однако, результат этого - кое-что, что я не понимаю, делаю ли я это неправильно, или это единственный способ, которым он ведет себя. Я ссылался на эту ссылку …

r text-mining tm stemming text-analysis

16 янв '17 в 10:10

1 ответ

Нужно объяснение на языке Stemmer of Solr

Я использую Nutch с Solr для разработки поисковой системы для арабских текстов. Мне нужно реализовать стеммер на моих арабских текстах, и пока я работал с Solr Stemmer, я обнаружил, что он обеспечивает эти два фильтра. <filter class="solr.ArabicN…

solr arabic stemming

21 май '12 в 07:46

0 ответов

Портер Стеммер используется в поиске по сайту

Я использовал версию PHP алгоритма определения слова Портера Стеммера, доступную здесь http://tartarus.org/~martin/PorterStemmer/ для поисковой системы на моем сайте. Проблема в том, что я только что заметил, что слово "смешной" меняется на "веселый…

php stemming porter-stemmer

15 мар '12 в 14:44

0 ответов

<генератор объекта <genexpr> в 0x11ad5dbf8> вместо основы слова?

Следующий код должен выводить стволовые слова, но вместо этого я получаю объект генератора. from nltk.stem import SnowballStemmer english_stemmer = SnowballStemmer('english') words = ["presumably", "presume", "multiply"] print(stemmer.stem(w) for w …

python nltk stemming

27 ноя '17 в 16:59

1 ответ

Snowball Stemmer: плохой французский язык

Я имею дело с некоторыми задачами NLP. Мои входные данные представляют собой текст на французском языке, поэтому в моем контексте можно использовать только Snowball Stemmer. Но, к сожалению, он продолжает давать мне плохие стебли, поскольку это не у…

python nltk stemming french snowball

29 июн '18 в 08:31

1 ответ

Как мне настроить и использовать KStem в Java?

Я хочу остановить слова в моем документе и сосредоточиться на KStem. Я работаю в Eclipse и настроил Lucene, загрузив jar-файл lucene-core в папку lib и добавив его в путь сборки. Я также сделал это для файла JAR KStem. Однако я не могу найти какие-л…

java solr lucene stemming

05 окт '12 в 08:26

1 ответ

Стволовые слова и создание индекса без стоп-слов с помощью Lucene 4.0

У меня следующая проблема: есть несколько текстовых документов, которые мне нужно проанализировать и создать индекс, но без стоп-слов и для определения терминов. Я могу сделать это вручную, но я слышал от коллеги о Lucene, который может делать это а…

lucene stop-words stemming

04 янв '13 в 08:45

1 ответ

Несколько результатов одной переменной при применении метода "stemCompletion"

У меня есть корпус, содержащий данные журнала 15 наблюдений за 3 переменными (ID, заголовок, аннотация). Используя R Studio, я читаю данные из файла.csv (одна строка на наблюдение). При выполнении некоторых операций по добыче текста у меня возникли …

r rstudio tm stemming

05 окт '14 в 16:23

2 ответа

Точный поиск слов в Solr

У меня есть вопрос, который тесно связан с этим вопросом. В моей схеме у меня есть поле <field name="text" type="textgen" indexed="true" stored="true" required="true"/> Это дает точное совпадение, т.е. stemming инвалидов есть = есть Возможно л…

search solr lucene stemming

21 июн '11 в 16:14

1 ответ

Может ли Solr вернуть фактический конечный запрос, который использовался при использовании синонимов и основ?

Я хотел бы иметь возможность показать в своем пользовательском интерфейсе, какие термины запроса использовались для решения окончательного запроса. Например, я мог бы напечатать запрос "запустить", но за кулисами solr будет использовать stemming, чт…

solr stemming synonym

19 авг '10 в 14:35

2 ответа

Как получить такие слова, как olog и ology, чтобы получить / лемматизировать к одному корню?

Я играл с кучей стеммеров и лемматизаторов в NLTK, но никто не делает то, что я хочу. У меня есть несколько слов, таких как "радиолог", "радиология", "кардиолог", "кардиология" и т. Д., Где я бы хотел, чтобы * олог пошел в то же ведро, что и * ологи…

python nltk stemming lemmatization

06 апр '16 в 23:58

4 ответа

Токенайзер, Стоп Word Удаление, Стебминг в Java

Я ищу класс или метод, который принимает длинную строку из многих сотен слов и токенов, удаляет стоп-слова и основы для использования в ИК-системе. Например: "Большой толстый кот, сказал" твой самый смешной парень, которого я знаю "кенгуру..." токен…

java tokenize stop-words stemming

03 ноя '09 в 00:04

2 ответа

Стемминг в питоне

Я хочу остановить мой текст, который я читаю из файла CSV. Но после стебл-оператора текст не меняется. Тогда я где-то читал, что мне нужно использовать POS-теги, чтобы это произошло, но это не помогло. Подскажите, пожалуйста, что я делаю не так? Поэ…

python nltk stemming text-analysis

16 июн '17 в 08:40

1 ответ

Lucene - лемматизация поиска по умолчанию

Есть ли Lucene поиск по умолчанию сделать лемматизацию /stemming на слова? Например, при использовании кода в этом примере слова в документах используются как есть или они преобразуются в их базовую форму (например, Managing -> manag), и если да, то…

java lucene search-engine stemming lemmatization

27 ноя '14 в 11:23

1 ответ

Есть ли стеммер для упругого поиска, который может заменить "сломанный" на "сломанный"

Вот что я хотел бы, чтобы стеммер сделал: ломать: ломать ломать: ломать ломать: ломать ввод: вводить ввод: вводить ввод: вводить Я проиндексировал поле следующим образом: "body": { "type": "text", "fields": { "stemmed": { "type": "text", "analyzer":…

elasticsearch stemming

04 ноя '16 в 20:15

0 ответов

Добавление языка в pystemmer

Я хотел бы использовать pystemmer с whoosh, но нет поддержки моего языка. Я нашел два файла снежного кома для моего языка ( Snowball), и я сделал файлы *.c из них, как рекомендовано здесь. Теперь я хотел бы включить файлы *.c в pystemmer. Я добавил …

python stemming snowball

21 окт '12 в 18:48

1 ответ

Основа текста в Java

Я в поисках возможности Stemm строк в Java. Сначала я хотел сделать это с помощью lucene, но все примеры, которые я нашел в Интернете, устарели. (SnowballAnalyzer, PorterStemmer, ...) Я просто хочу выделить целые предложения. public static String st…

java lucene stemming

07 июн '14 в 10:26

1 ответ

Классификация текста - использование стеммера ухудшает результаты?

Там есть статья об анализе настроений арабского языка. В начале страницы 5 говорится, что: "Эксперименты также показывают, что слова, стоящие перед выделением и классификацией признаков, почти всегда ухудшают результаты". Позже на той же странице он…

nlp sentiment-analysis text-classification stemming

22 янв '14 в 21:47

4 ответа

Существует ли самообучающийся инструмент с открытым исходным кодом?

Мне нужно реализовать какой-то стеммер / лемматизатор. У меня есть несколько слов в разных формах (несколько тысяч). Это не морфологический словарь, просто небольшая его часть. Это хорошая идея, чтобы выучить stemmer автоматически из файла иметь? Ес…

nlp stemming lemmatization morphological-analysis

09 апр '13 в 16:46

2 ответа

MySQL полный текст с основами

Я создаю небольшую функцию поиска для моего сайта. Я беру запрос моего пользователя, определяю ключевые слова и затем выполняю полнотекстовый поиск MySQL по ключевым словам. Проблема в том, что MySQL рассматривает основы как буквальные. Вот процесс,…

mysql full-text-search stemming

14 янв '10 в 04:11