Описание тега stop-words
Stop words are words that are filtered out prior (or after) the processing of natural language data.
0
ответов
Solr 3.6.2 проверка орфографии из нескольких слов фраза: как получить сопоставления без игнорируемых стоп-слов?
У меня проблема с проверкой орфографии Solr 3.6.2 по умолчанию (на основе полей), настроенной с параметрами времени запроса spellcheck.onlyMorePopular = TRUE spellcheck.count = 5 spellcheck.collate = верно spellcheck.maxCollations = 5 spellcheck.max…
01 май '17 в 11:53
6
ответов
Более быстрый способ удаления стоп-слов в Python
Я пытаюсь удалить стоп-слова из строки текста: from nltk.corpus import stopwords text = 'hello bye the the hi' text = ' '.join([word for word in text.split() if word not in (stopwords.words('english'))]) Я обрабатываю 6 миллионов таких строк, поэтом…
24 окт '13 в 08:13
0
ответов
Добавлены стоп-слова, но, похоже, не работает
Я добавил несколько слов в свой список стоп-слов, но когда я обрабатываю его и смотрю на частоту слов, одно из слов кажется застрявшим. myStopwords <- c(stopwords('english'), "glove", "kgi") corp <- tm_map(corp, removeWords, myStopwords) Затем…
10 авг '17 в 13:48
2
ответа
Список неинтересных слов
[Предостережение] Это не вопрос программирования, но он возникает так часто при обработке языка, что я уверен, что он будет полезен для сообщества. У кого-нибудь есть хороший список неинтересных (английских) слов, которые были проверены более чем сл…
24 апр '10 в 21:49
1
ответ
Solr Cloud Управляемые ресурсы
Я впервые использую Solr Cloud. Я работал с обычным Solr и неплохо справляюсь с этим, но я не нахожу много на том, что вы можете и не можете сделать с Solr Cloud. Так что мой вопрос об управляемых ресурсах. Я знаю, что вы можете CRUD остановить слов…
01 июн '15 в 21:56
1
ответ
CLUTO doc2mat указанный список стоп-слов не работает
Я пытаюсь преобразовать мои документы в векторный формат с использованием doc2mat На веб-сайте написано, что я могу использовать указанный текстовый файл, где слова разделены пробелами или в нескольких строках. Итак, я использую некоторый код, похож…
21 апр '15 в 05:01
0
ответов
Стоп-слова R не удаляются
Я пытаюсь удалить стоп-слова перед запуском word2vec. # Remove stop-words. custom_stopwords <- 'this\\b|\\curatr\\b|\\content\\b|\\i\\b|\\it\\b|\\curatr\\b|\\course\\b|\\expire\\b|\\run\\b|\\id\\b|\\the\\b|\\</s>' stopwords_regex <- past…
07 фев '19 в 16:54
1
ответ
Удалить стоп-слова (NLTK) из нескольких файлов
У меня есть пара текстовых файлов (локальная папка) и я хочу удалить стоп-слова из каждого файла в этой папке и сохранить новые файлы в подпапке. Код для одного файла: import io from nltk.corpus import stopwords from nltk.tokenize import word_tokeni…
14 авг '18 в 13:42
1
ответ
Стволовые слова и создание индекса без стоп-слов с помощью Lucene 4.0
У меня следующая проблема: есть несколько текстовых документов, которые мне нужно проанализировать и создать индекс, но без стоп-слов и для определения терминов. Я могу сделать это вручную, но я слышал от коллеги о Lucene, который может делать это а…
04 янв '13 в 08:45
3
ответа
Удаление StopWords [Java]
Я написал метод, который будет принимать строку и разбивать ее так, чтобы он мог удалить каждое стоп-слово внутри строки. Я нашел готовый массив, полный стоп-слов, который проверит строку и, если найдет ее, удалит ее. Тем не менее, это не работает с…
10 фев '16 в 15:41
4
ответа
Токенайзер, Стоп Word Удаление, Стебминг в Java
Я ищу класс или метод, который принимает длинную строку из многих сотен слов и токенов, удаляет стоп-слова и основы для использования в ИК-системе. Например: "Большой толстый кот, сказал" твой самый смешной парень, которого я знаю "кенгуру..." токен…
03 ноя '09 в 00:04
2
ответа
Нет результатов после удаления mysql ft_stopword_file
У меня есть база данных фильмов, которая содержит информацию о фильме под названием "Да, мы открыты". При поиске в базе данных у меня возникает проблема, из-за которой поиск "да, мы открыты" возвращает другой заголовок, в описании которого есть слов…
15 фев '12 в 20:12
2
ответа
Как записать один столбец в базу данных SQL Server
У меня есть этот код, который выполняет следующие шаги: 1. Selects texts from SQL database table (column name i.e. p_abstract) 2. Stores them in a List<string> 3. Removes stopWords from these texts Вот код try { string[] stopWords = File.ReadA…
24 авг '15 в 04:46
2
ответа
Удаление фраз (stopphrases) из корпуса в R?
Я могу легко удалить стоп-слова, используя пакет tm, но есть ли простой способ удалить определенные фразы? Я хотел бы иметь возможность удалить фразу "доброе утро", но не удалить случаи, когда добро не следует за утром. Пример: x <- "Good morning…
24 июл '15 в 13:40
1
ответ
Полнотекстовый поиск с использованием Freetexttable при отсутствии слов шума - SQL Server 2008 R2 Transform Noise Words не работает
Я выполняю полнотекстовый поиск своего сайта с использованием SQL Server 2008 R2 и freetexttable. Я получаю эту ошибку при вводе стоп-слова: Информационный: условие полнотекстового поиска содержало шумовые слова. Поэтому я сделал то, что все сказали…
19 июл '14 в 09:47
1
ответ
Удаление стоп-слов из NLTK
Я пытаюсь прочитать один текстовый файл (foo1.txt), удалить все заданные nltk стоп-слова и записать в другой файл (foo2.txt). Код выглядит следующим образом: Требуется импорт: из nltk.corpus импорт стоп-слов def stop_words_removal(): with open("foo1…
17 май '13 в 16:19
3
ответа
Эффективный метод для исключения элементов из одного списка из другого списка в Python
У меня есть список из 8000 строк (стоп-слов) и список из 100 000 строк различной длины, которые могут включать миллионы отдельных слов. Я использую функцию для токенизации 100 000 строк и исключения не алфавитно-цифровых токенов и токенов из списка …
12 янв '13 в 13:07
3
ответа
SQL 2008: отключить стоп-слова для запроса полнотекстового поиска
У меня возникли сложности с поиском хорошего решения для этого: Допустим, у меня есть таблица "Компания" с колонкой "Имя". У меня есть полнотекстовый каталог на эту колонку. Если бы пользователь искал "Очень хорошая компания", мой запрос был бы: SEL…
08 дек '11 в 18:13
1
ответ
Как сделать так, чтобы вывод отображался на арабском языке при импорте файла stopWords в python2.7?
Я использую Python 2.7 и код, как показано здесь from nltk.corpus import stopwords sW_list=stopwords.words('arabic') print (sW_list) и вывод был: [u'\u0625\u0630', u'\u0625\u0630\u0627', u'\u0625\u0630\u0645\u0627' ......
11 фев '18 в 07:14
1
ответ
Фильтровать объект в Python 3.X
В Python 3.X я писал эти коды: Одна функция для "text_tokenizing" и другая для "удаления лишних символов". В функции "remove_characters_after_tokenization" я использовал "фильтр". Моя проблема: когда я запускаю свой проект, я вижу эту строку в консо…
26 янв '17 в 13:31