Описание тега snowball
Snowball is a small language for writing stemming algorithms, used primarily in information retrieval and natural language processing.
1
ответ
Snowball Stemmer: плохой французский язык
Я имею дело с некоторыми задачами NLP. Мои входные данные представляют собой текст на французском языке, поэтому в моем контексте можно использовать только Snowball Stemmer. Но, к сожалению, он продолжает давать мне плохие стебли, поскольку это не у…
29 июн '18 в 08:31
0
ответов
Добавление языка в pystemmer
Я хотел бы использовать pystemmer с whoosh, но нет поддержки моего языка. Я нашел два файла снежного кома для моего языка ( Snowball), и я сделал файлы *.c из них, как рекомендовано здесь. Теперь я хотел бы включить файлы *.c в pystemmer. Я добавил …
21 окт '12 в 18:48
1
ответ
Можно ли использовать анализатор "только для Java" в Lucene.Net?
Я думал, что ответ "Нет". Но я видел несколько интересных слов Microsoft MVP Симона Кьяретта: Directoy Структура индекса совместима со всеми портами Lucene, так что вы можете также выполнить индексацию с помощью.NET и выполнять поиск с помощью Java …
03 июл '12 в 18:31
1
ответ
ElasticSearch stemming с защищенными словами
Я использую ElasticSearch (через Ruby, Tire) для функции поиска на веб-сайте одежды для электронной коммерции. Мне нужен фильтр стволовых символов, НО я также должен иметь возможность указать список защищенных слов, которые не получают в качестве ос…
27 авг '12 в 15:28
7
ответов
Есть ли Java-реализация Porter2
Знаете ли вы какую-либо java-реализацию стеммера Porter2 (или какой-нибудь лучший стеммер, написанный на java)? Я знаю, что здесь есть Java-версия Porter(не Porter2): http://tartarus.org/~martin/PorterStemmer/java.txt но на http://tartarus.org/~mart…
09 дек '10 в 10:21
0
ответов
(Lucene.Net) Турецкий стеммер заставляет SnowballProgram выбросить исключение индекса из диапазона. Как это исправить?
Определенные слова в турецком словаре заставляют SnowballProgram генерировать исключение индекса из диапазона. Кто-нибудь может помочь мне решить эту проблему?
11 ноя '14 в 09:51
2
ответа
ElasticSearch: странное поведение поиска при использовании анализатора снежного кома
Допустим, у меня есть индекс ElasticSearch, определенный следующим образом: curl -XPUT 'http://localhost:9200/test' -d '{ "mappings": { "example": { "properties": { "text": { "type": "string", "analyzer": "snowball" } } } } }' curl -XPUT 'http://loc…
14 мар '12 в 11:21
2
ответа
Сбой с ошибкой: 'пакет' sentiment 'был собран до R 3.0.0: пожалуйста, переустановите его'
Я пытаюсь запустить скрипт snaMIC.R, который выполняет анализ настроений на данных Twitter. Но происходит сбой из-за ошибки, говорящей о том, что пакет настроен до версии 3.0.0: пожалуйста, переустановите. Я использую R-3.1.0 i386 (32 бита). Еще одн…
23 май '14 в 02:00
1
ответ
Снежок Стеммер [Java]
В настоящее время я использую Snowball Stemmer (Porter2) в своем Java-проекте для определения слов и т. Д. Тем не менее, это связано со словами, которые либо не обязательно должны быть основаны, либо слишком много их содержат? Например, online ->…
15 фев '16 в 17:37
1
ответ
Elasticsearch: Как составить список каждого анализатора, используемого определенным индексом
Мне нужно выяснить, какой анализатор (тип, язык..) настроен в определенном индексе. Я старался http://localhost:9200/wazzup/_mapping но он дает только информацию об именах / типах полей. Спасибо
25 мар '14 в 14:31
0
ответов
Реверс Стемминга
Есть ли способ в R, чтобы полностью изменить процесс У меня есть несколько русских ключевых слов. Я хочу выяснить все возможные корни слов. library(SnowballC) wordStem('выявлениа', language = "ru") wordStem('выявления', language = "ru") Возвращается…
09 сен '18 в 22:43
1
ответ
Многоязычный полный текст: Какой язык [Snowball] следует использовать?
Какой язык я должен использовать, если я хочу поддерживать полнотекстовый поиск на всех языках. Насколько я знаю, индекс нужно создавать с использованием этого конкретного языка stemming для поддержки поиска по этому языку, но это невозможно для мен…
30 апр '12 в 12:15
1
ответ
Снежок Stemming: определение регионов
Я пытаюсь понять алгоритм снобала. Алгоритм использует две области R1 и R2, которые определены следующим образом: R1 - это область после первого не гласного, следующего за гласным, или нулевая область в конце слова, если такого не существует. R2 - э…
06 авг '15 в 06:13
1
ответ
Определение списка строк с использованием снежного кома
Как я могу определить строку списка, используя снежный ком? Я пытался сделать это так: define patterns ( '{m}{f}{i}{l}' or '{f}{a}{i}{l}' or ....... ) Как узнать длину списка? как бороться с каждым шаблоном?
12 фев '17 в 14:26
0
ответов
R не может загрузить пакет Snowball, rJava
Я пытаюсь запустить R-пакет "lsa", который, в свою очередь, требует Snowball, который, в свою очередь, не работает. Я использую OpenSUSE 12.2 с последней R-пропатченной сборкой (в настоящее время 3.01). Вот в чем дело: библиотеки не загружаются, есл…
17 июл '13 в 20:38
2
ответа
Python NLTK в виде снежного кома UnicodeDecodeError в терминале, но не Eclipse PyDev
Я использую "снежный ком" для обозначения слов в документах, как показано в фрагменте кода ниже. stemmer = EnglishStemmer() # Stem, lowercase, substitute all punctuations, remove stopwords. attribute_names = [stemmer.stem(token.lower()) for token in…
21 май '13 в 20:02
1
ответ
Как использовать Шекспира /KJV с помощью nltk.stem.snowball
Я хочу остановить ранний современный английский текст: sb.stem("loveth") >>> "lov" По-видимому, все, что мне нужно сделать, это небольшая настройка Snowball Stemmer: И положить окончание в английский stemmer, список Edlylylylyly шага 1b сле…
29 фев '16 в 02:14
2
ответа
Lucene с использованием Snowball и SpellChecker возвращает странные значения
Я пытаюсь настроить SpellChecker с помощью Lucene.NET, все работает отлично, за исключением ситуаций, подобных следующим: У меня есть текст, содержащий спутник в индексе, я анализирую его с помощью Snowball. Затем я создаю индекс SpellChecker и полу…
02 дек '09 в 11:55
1
ответ
Могу ли я сделать этот код Python со снежком?
Длина слова равна 5. Я хочу удалить букву в позиции 0 и букву в позиции 3 с питоном выглядит так: word = word[1:3] + word[4] #this is with python Вопрос в том, как я могу сделать это со снежком?
18 янв '17 в 14:37
1
ответ
Нестандартный анализатор asticsearch soundex plus snowball
Следующее работает для меня (поиск для "test" также возвращает поля с "test"): index : analysis : analyzer : default : type : snowball language : english когда установлено в моем файле asticsearch.yml. Я хочу объединить это с установленным мной soun…
12 янв '15 в 22:33