Описание тега stop-words

Описание тега Вопросы с тегом

Stop words are words that are filtered out prior (or after) the processing of natural language data.

0 ответов

Solr 3.6.2 проверка орфографии из нескольких слов фраза: как получить сопоставления без игнорируемых стоп-слов?

У меня проблема с проверкой орфографии Solr 3.6.2 по умолчанию (на основе полей), настроенной с параметрами времени запроса spellcheck.onlyMorePopular = TRUE spellcheck.count = 5 spellcheck.collate = верно spellcheck.maxCollations = 5 spellcheck.max…

solr spell-checking stop-words

01 май '17 в 11:53

6 ответов

Более быстрый способ удаления стоп-слов в Python

Я пытаюсь удалить стоп-слова из строки текста: from nltk.corpus import stopwords text = 'hello bye the the hi' text = ' '.join([word for word in text.split() if word not in (stopwords.words('english'))]) Я обрабатываю 6 миллионов таких строк, поэтом…

python regex stop-words

24 окт '13 в 08:13

0 ответов

Добавлены стоп-слова, но, похоже, не работает

Я добавил несколько слов в свой список стоп-слов, но когда я обрабатываю его и смотрю на частоту слов, одно из слов кажется застрявшим. myStopwords <- c(stopwords('english'), "glove", "kgi") corp <- tm_map(corp, removeWords, myStopwords) Затем…

r tm stop-words

10 авг '17 в 13:48

2 ответа

Список неинтересных слов

[Предостережение] Это не вопрос программирования, но он возникает так часто при обработке языка, что я уверен, что он будет полезен для сообщества. У кого-нибудь есть хороший список неинтересных (английских) слов, которые были проверены более чем сл…

nlp text-processing stop-words

24 апр '10 в 21:49

1 ответ

Solr Cloud Управляемые ресурсы

Я впервые использую Solr Cloud. Я работал с обычным Solr и неплохо справляюсь с этим, но я не нахожу много на том, что вы можете и не можете сделать с Solr Cloud. Так что мой вопрос об управляемых ресурсах. Я знаю, что вы можете CRUD остановить слов…

solr solrcloud stop-words synonym

01 июн '15 в 21:56

1 ответ

CLUTO doc2mat указанный список стоп-слов не работает

Я пытаюсь преобразовать мои документы в векторный формат с использованием doc2mat На веб-сайте написано, что я могу использовать указанный текстовый файл, где слова разделены пробелами или в нескольких строках. Итак, я использую некоторый код, похож…

perl nlp data-mining document stop-words

21 апр '15 в 05:01

0 ответов

Стоп-слова R не удаляются

r regex stop-words

07 фев '19 в 16:54

1 ответ

Удалить стоп-слова (NLTK) из нескольких файлов

У меня есть пара текстовых файлов (локальная папка) и я хочу удалить стоп-слова из каждого файла в этой папке и сохранить новые файлы в подпапке. Код для одного файла: import io from nltk.corpus import stopwords from nltk.tokenize import word_tokeni…

python python-3.x nltk stop-words

14 авг '18 в 13:42

1 ответ

Стволовые слова и создание индекса без стоп-слов с помощью Lucene 4.0

У меня следующая проблема: есть несколько текстовых документов, которые мне нужно проанализировать и создать индекс, но без стоп-слов и для определения терминов. Я могу сделать это вручную, но я слышал от коллеги о Lucene, который может делать это а…

lucene stop-words stemming

04 янв '13 в 08:45

3 ответа

Удаление StopWords [Java]

Я написал метод, который будет принимать строку и разбивать ее так, чтобы он мог удалить каждое стоп-слово внутри строки. Я нашел готовый массив, полный стоп-слов, который проверит строку и, если найдет ее, удалит ее. Тем не менее, это не работает с…

java arrays loops arraylist stop-words

10 фев '16 в 15:41

4 ответа

Токенайзер, Стоп Word Удаление, Стебминг в Java

Я ищу класс или метод, который принимает длинную строку из многих сотен слов и токенов, удаляет стоп-слова и основы для использования в ИК-системе. Например: "Большой толстый кот, сказал" твой самый смешной парень, которого я знаю "кенгуру..." токен…

java tokenize stop-words stemming

03 ноя '09 в 00:04

2 ответа

Нет результатов после удаления mysql ft_stopword_file

У меня есть база данных фильмов, которая содержит информацию о фильме под названием "Да, мы открыты". При поиске в базе данных у меня возникает проблема, из-за которой поиск "да, мы открыты" возвращает другой заголовок, в описании которого есть слов…

mysql stop-words my.cnf

15 фев '12 в 20:12

2 ответа

Как записать один столбец в базу данных SQL Server

У меня есть этот код, который выполняет следующие шаги: 1. Selects texts from SQL database table (column name i.e. p_abstract) 2. Stores them in a List<string> 3. Removes stopWords from these texts Вот код try { string[] stopWords = File.ReadA…

c# sql-server sql-update stop-words

24 авг '15 в 04:46

2 ответа

Удаление фраз (stopphrases) из корпуса в R?

Я могу легко удалить стоп-слова, используя пакет tm, но есть ли простой способ удалить определенные фразы? Я хотел бы иметь возможность удалить фразу "доброе утро", но не удалить случаи, когда добро не следует за утром. Пример: x <- "Good morning…

r regex text tm stop-words

24 июл '15 в 13:40

1 ответ

Полнотекстовый поиск с использованием Freetexttable при отсутствии слов шума - SQL Server 2008 R2 Transform Noise Words не работает

Я выполняю полнотекстовый поиск своего сайта с использованием SQL Server 2008 R2 и freetexttable. Я получаю эту ошибку при вводе стоп-слова: Информационный: условие полнотекстового поиска содержало шумовые слова. Поэтому я сделал то, что все сказали…

sql-server-2008-r2 full-text-search stop-words freetexttable

19 июл '14 в 09:47

1 ответ

Удаление стоп-слов из NLTK

Я пытаюсь прочитать один текстовый файл (foo1.txt), удалить все заданные nltk стоп-слова и записать в другой файл (foo2.txt). Код выглядит следующим образом: Требуется импорт: из nltk.corpus импорт стоп-слов def stop_words_removal(): with open("foo1…

python nltk stop-words

17 май '13 в 16:19

3 ответа

Эффективный метод для исключения элементов из одного списка из другого списка в Python

У меня есть список из 8000 строк (стоп-слов) и список из 100 000 строк различной длины, которые могут включать миллионы отдельных слов. Я использую функцию для токенизации 100 000 строк и исключения не алфавитно-цифровых токенов и токенов из списка …

python string list tokenize stop-words

12 янв '13 в 13:07

3 ответа

SQL 2008: отключить стоп-слова для запроса полнотекстового поиска

У меня возникли сложности с поиском хорошего решения для этого: Допустим, у меня есть таблица "Компания" с колонкой "Имя". У меня есть полнотекстовый каталог на эту колонку. Если бы пользователь искал "Очень хорошая компания", мой запрос был бы: SEL…

sql-server-2008 full-text-search stop-words

08 дек '11 в 18:13

1 ответ

Как сделать так, чтобы вывод отображался на арабском языке при импорте файла stopWords в python2.7?

Я использую Python 2.7 и код, как показано здесь from nltk.corpus import stopwords sW_list=stopwords.words('arabic') print (sW_list) и вывод был: [u'\u0625\u0630', u'\u0625\u0630\u0627', u'\u0625\u0630\u0645\u0627' ......

python-2.7 nltk arabic corpus stop-words

11 фев '18 в 07:14

1 ответ

Фильтровать объект в Python 3.X

В Python 3.X я писал эти коды: Одна функция для "text_tokenizing" и другая для "удаления лишних символов". В функции "remove_characters_after_tokenization" я использовал "фильтр". Моя проблема: когда я запускаю свой проект, я вижу эту строку в консо…

python python-3.x nltk stop-words

26 янв '17 в 13:31