Описание тега snowball

Snowball is a small language for writing stemming algorithms, used primarily in information retrieval and natural language processing.
1 ответ

Snowball Stemmer: плохой французский язык

Я имею дело с некоторыми задачами NLP. Мои входные данные представляют собой текст на французском языке, поэтому в моем контексте можно использовать только Snowball Stemmer. Но, к сожалению, он продолжает давать мне плохие стебли, поскольку это не у…
29 июн '18 в 08:31
0 ответов

Добавление языка в pystemmer

Я хотел бы использовать pystemmer с whoosh, но нет поддержки моего языка. Я нашел два файла снежного кома для моего языка ( Snowball), и я сделал файлы *.c из них, как рекомендовано здесь. Теперь я хотел бы включить файлы *.c в pystemmer. Я добавил …
21 окт '12 в 18:48
1 ответ

Можно ли использовать анализатор "только для Java" в Lucene.Net?

Я думал, что ответ "Нет". Но я видел несколько интересных слов Microsoft MVP Симона Кьяретта: Directoy Структура индекса совместима со всеми портами Lucene, так что вы можете также выполнить индексацию с помощью.NET и выполнять поиск с помощью Java …
1 ответ

ElasticSearch stemming с защищенными словами

Я использую ElasticSearch (через Ruby, Tire) для функции поиска на веб-сайте одежды для электронной коммерции. Мне нужен фильтр стволовых символов, НО я также должен иметь возможность указать список защищенных слов, которые не получают в качестве ос…
27 авг '12 в 15:28
7 ответов

Есть ли Java-реализация Porter2

Знаете ли вы какую-либо java-реализацию стеммера Porter2 (или какой-нибудь лучший стеммер, написанный на java)? Я знаю, что здесь есть Java-версия Porter(не Porter2): http://tartarus.org/~martin/PorterStemmer/java.txt но на http://tartarus.org/~mart…
09 дек '10 в 10:21
0 ответов

(Lucene.Net) Турецкий стеммер заставляет SnowballProgram выбросить исключение индекса из диапазона. Как это исправить?

Определенные слова в турецком словаре заставляют SnowballProgram генерировать исключение индекса из диапазона. Кто-нибудь может помочь мне решить эту проблему?
11 ноя '14 в 09:51
2 ответа

ElasticSearch: странное поведение поиска при использовании анализатора снежного кома

Допустим, у меня есть индекс ElasticSearch, определенный следующим образом: curl -XPUT 'http://localhost:9200/test' -d '{ "mappings": { "example": { "properties": { "text": { "type": "string", "analyzer": "snowball" } } } } }' curl -XPUT 'http://loc…
14 мар '12 в 11:21
2 ответа

Сбой с ошибкой: 'пакет' sentiment 'был собран до R 3.0.0: пожалуйста, переустановите его'

Я пытаюсь запустить скрипт snaMIC.R, который выполняет анализ настроений на данных Twitter. Но происходит сбой из-за ошибки, говорящей о том, что пакет настроен до версии 3.0.0: пожалуйста, переустановите. Я использую R-3.1.0 i386 (32 бита). Еще одн…
23 май '14 в 02:00
1 ответ

Снежок Стеммер [Java]

В настоящее время я использую Snowball Stemmer (Porter2) в своем Java-проекте для определения слов и т. Д. Тем не менее, это связано со словами, которые либо не обязательно должны быть основаны, либо слишком много их содержат? Например, online ->…
15 фев '16 в 17:37
1 ответ

Elasticsearch: Как составить список каждого анализатора, используемого определенным индексом

Мне нужно выяснить, какой анализатор (тип, язык..) настроен в определенном индексе. Я старался http://localhost:9200/wazzup/_mapping но он дает только информацию об именах / типах полей. Спасибо
25 мар '14 в 14:31
0 ответов

Реверс Стемминга

Есть ли способ в R, чтобы полностью изменить процесс У меня есть несколько русских ключевых слов. Я хочу выяснить все возможные корни слов. library(SnowballC) wordStem('выявлениа', language = "ru") wordStem('выявления', language = "ru") Возвращается…
09 сен '18 в 22:43
1 ответ

Многоязычный полный текст: Какой язык [Snowball] следует использовать?

Какой язык я должен использовать, если я хочу поддерживать полнотекстовый поиск на всех языках. Насколько я знаю, индекс нужно создавать с использованием этого конкретного языка stemming для поддержки поиска по этому языку, но это невозможно для мен…
30 апр '12 в 12:15
1 ответ

Снежок Stemming: определение регионов

Я пытаюсь понять алгоритм снобала. Алгоритм использует две области R1 и R2, которые определены следующим образом: R1 - это область после первого не гласного, следующего за гласным, или нулевая область в конце слова, если такого не существует. R2 - э…
1 ответ

Определение списка строк с использованием снежного кома

Как я могу определить строку списка, используя снежный ком? Я пытался сделать это так: define patterns ( '{m}{f}{i}{l}' or '{f}{a}{i}{l}' or ....... ) Как узнать длину списка? как бороться с каждым шаблоном?
12 фев '17 в 14:26
0 ответов

R не может загрузить пакет Snowball, rJava

Я пытаюсь запустить R-пакет "lsa", который, в свою очередь, требует Snowball, который, в свою очередь, не работает. Я использую OpenSUSE 12.2 с последней R-пропатченной сборкой (в настоящее время 3.01). Вот в чем дело: библиотеки не загружаются, есл…
17 июл '13 в 20:38
2 ответа

Python NLTK в виде снежного кома UnicodeDecodeError в терминале, но не Eclipse PyDev

Я использую "снежный ком" для обозначения слов в документах, как показано в фрагменте кода ниже. stemmer = EnglishStemmer() # Stem, lowercase, substitute all punctuations, remove stopwords. attribute_names = [stemmer.stem(token.lower()) for token in…
21 май '13 в 20:02
1 ответ

Как использовать Шекспира /KJV с помощью nltk.stem.snowball

Я хочу остановить ранний современный английский текст: sb.stem("loveth") >>> "lov" По-видимому, все, что мне нужно сделать, это небольшая настройка Snowball Stemmer: И положить окончание в английский stemmer, список Edlylylylyly шага 1b сле…
29 фев '16 в 02:14
2 ответа

Lucene с использованием Snowball и SpellChecker возвращает странные значения

Я пытаюсь настроить SpellChecker с помощью Lucene.NET, все работает отлично, за исключением ситуаций, подобных следующим: У меня есть текст, содержащий спутник в индексе, я анализирую его с помощью Snowball. Затем я создаю индекс SpellChecker и полу…
02 дек '09 в 11:55
1 ответ

Могу ли я сделать этот код Python со снежком?

Длина слова равна 5. Я хочу удалить букву в позиции 0 и букву в позиции 3 с питоном выглядит так: word = word[1:3] + word[4] #this is with python Вопрос в том, как я могу сделать это со снежком?
18 янв '17 в 14:37
1 ответ

Нестандартный анализатор asticsearch soundex plus snowball

Следующее работает для меня (поиск для "test" также возвращает поля с "test"): index : analysis : analyzer : default : type : snowball language : english когда установлено в моем файле asticsearch.yml. Я хочу объединить это с установленным мной soun…
12 янв '15 в 22:33