Описание тега snowball-stemmer

0 ответов

Как я могу использовать Snowball Stemmer как часть фильтра StringToWordVector?

Я пытаюсь предварительно обработать txt-данные с помощью weka, я импортировал файл jar stemmer jar в свой проект и использую stemmer как часть фильтра StringToWordVector в следующем коде: import org.tartarus.snowball.SnowballStemmer; import org.tart…
22 янв '19 в 08:47
0 ответов

Lucene ломает зависимость от Snowball

В моем Java-проекте (с использованием Maven) у меня есть Gate 8.0 в качестве основы для некоторой обработки естественного языка, и он загружает плагин Stemmer_Snowball (см. Список плагинов). Как указывается в документации, Stemmers обрабатывает обер…
1 ответ

Существует ли простой и стандартный способ настройки снежного кома Lucene?

Я использую Lucene 7.x и ItalianStemmer. Я видел код класса ItalianStemmer, и, кажется, это займет много времени, чтобы понять. Итак, я ищу быстрый (возможно, стандартный) способ настройки итальянского стеммера, без расширения ItalianStemmer или Sno…
01 окт '18 в 11:01
1 ответ

Немецкий стеммер не удаляет женские суффиксы "-in" и "-innen"

На немецком языке каждая работа имеет женскую и мужскую версии. Женский происходит от мужского путем добавления суффикса "-in". В форме множественного числа это превращается в "-inen". Пример: | English | German ------+------------------+-----------…
13 июл '18 в 01:17
1 ответ

Где я могу найти стоящие испанские словари?

Знаете ли вы какие-нибудь готовые испанские словари stemming? Мне нужен словарь с испанскими существительными Пожалуйста, помогите мне.
08 апр '18 в 17:06
1 ответ

Сервис AWS ElasticSearch - какие стеммеры я могу использовать?

Пытаемся обеспечить множественность поисковых запросов с помощью английского стеммера, похожего на снежный ком. А есть стандартный aws? Или мне нужно установить плагин? Я пробовал ниже 2, получив следующее: {"error":{"root_cause":[{"type":"remote_tr…
0 ответов

Почему моя функция стемминга разделяет инициалы в моей строке вместо вывода основы?

Я пробовал использовать стеммер портера, но результат тот же.. Я пытаюсь ограничить строки в моем фрейме данных [Total_Loss_Stemmed] в столбце [Описание свойства], используя.apply в новом столбце [stemmed]. Пример: вместо "Питоны" на "Python" я полу…
16 сен '20 в 08:51
0 ответов

Создание кастомного токенизатора

Мне нужно создать собственный токенизатор, используя CountVectorizer(), который будет делать следующее: Разделение текста на токены с помощью word_tokenizer из nltk Удаление жетонов с пунктуацией, цифрами и жетонами из nltk.corpus.stopwords('russian…
0 ответов

Слово Stemming. Проблемы с основными словами в испанском [закрыто]

Доброе утро, у меня проблемы с использованием "основы слова" при использовании испанского языка. У меня такой же список слов. # Importamos el NLTK Snowball Stemmer: from nltk.stem.snowball import SnowballStemmer stemmer = SnowballStemmer("spanish") …
04 окт '21 в 20:52
0 ответов

Как исправить ошибку SnowballStemmer is not callable и nlp.Default?

Первая ошибка, которую я получаю, называется Package SnowballStemmer. Код такой: stemmer = SnowballStemmer(language="english") stem = [] for words in lines2: stem.append(stemmer(words)) print(stem) Я получаю эту ошибку: line 116, in <module> s…
06 дек '21 в 13:01
1 ответ

Исправить ошибку SnowballStemmer «AttributeError: объект« Английский »не имеет атрибута« По умолчанию »

Привет :) Я использую пакет SnowballStemmer и получаю сообщение об ошибке. Я очень рад любой помощи :) Код: stem2 =[] for word in stem: if word not in nlp.Default.stop_words: stem2.append(word) print(stem2) Ошибка здесь: line 127, in <module> …
14 дек '21 в 17:58
0 ответов

Исправить ошибку SnowballStemmer «Объект не может быть вызван»

Привет :) Я использую Package SnowballStemmer для объединения слов в их основу слова. Каким-то образом я получаю сообщение об ошибке и не знаю, как ее исправить. Я очень рад любой помощи. Код такой: stemmer = SnowballStemmer(language="english") stem…
14 дек '21 в 16:24
0 ответов

Как исправить, что объект SnowballStemmer не имеет атрибута StemWords?

Это код: import nltk from nltk.stem.snowball import SnowballStemmer stemmer = SnowballStemmer(language='english') stem = [] lines2 = ["test"] for words in lines2: stem.append(stemmer.stem(words)) print(stem) Ошибка: line 82, in <module> stem.a…
16 дек '21 в 18:02
0 ответов

Как составлять слова и оставлять их ударения?

Я использую стеммер для снежного кома, чтобы составить словарь испанских слов. Тем не менее, есть слова с ударением, основа которых не имеет его. Например: from nltk.stem import SnowballStemmer stemmer = SnowballStemmer('spanish') word = 'útil' stem…
06 июл '22 в 15:09
0 ответов

SnowballStemmer("english") не работает со списком слов.

Я пытаюсь изучить стемминг в NLTK, и пока я пытаюсь составить слова с помощью SnowballStemmer, он застрял в PorterStemmer. Хотя когда я пытаюсь составить одно слово, это работает правильно, но когда я пытаюсь создать список слов, он связан с PorterS…
0 ответов

Портер, производящий слова «ионного типа»

Я пишу код на R и лемматизирую текст о кондиционировании воздуха. Я использую библиотеку стемминга Snowball.SnowballC::wordStem(), который реализует алгоритм стемминга Портера. Меня удивил такой результат: library(SnowballC) library(tidyverse) c("co…
25 апр '23 в 19:47