Описание тега corpus

Описание тега Вопросы с тегом

Корпус чаще всего означает набор структурированного текста. Пожалуйста, подумайте о том, чтобы задать свой вопрос на https://opendata.stackexchange.com, если ваш вопрос не имеет непосредственного отношения к программированию или вы просто ищете свободно доступный корпус для любых целей.

2 ответа

Какая польза от Brown Corpus для измерения семантического сходства на основе WordNet?

Я сталкивался с несколькими методами измерения семантического сходства, которые используют структуру и иерархию WordNet, например, мера Цзяна и Конрата (JNC), мера Ресника (RES), мера Лин (LIN) и т. Д. Они измеряются с помощью NLTK: sim2=wn.jcn_simi…

09 сен '13 в 19:45

1 ответ

Как создать словарь слов с частотой каждого слова в php или python

У меня большой текстовый файл scrapped_db.txt который содержит более 100 миллионов слов, а размер файла составляет 1,7 ГБ. Я создал этот файл с помощью Python Scrapy Framework, чтобы очистить сайт газеты. Теперь я хочу создать словарь из УНИКАЛЬНЫХ …

python php dictionary file corpus

29 июл '18 в 08:09

1 ответ

Textacy не может создать корпус из класса textacy.doc.Doc

Я просто работаю, думал текстовые учебники с данными за пределами модуля наборов данных для работы. Я получаю некоторые текстовые данные из фрейма данных и храню их как строковую переменную для работы. def mergeText(df): content = '' for i in df['te…

python-3.x pandas spacy corpus textacy

11 дек '17 в 15:03

0 ответов

Как удалить пустые документы из Term-Document-Matrix в R

Итак, я создал матрицу терминов документов из корпуса в R: tdm_tfidf <-TermDocumentMatrix(corpus,control=list(weighting=weightTfIdf)) Однако есть предупреждение, что TDM содержит пустые документы: Warning: In weighting(x) : empty document(s): 54 …

r text-mining corpus term-document-matrix

31 мар '18 в 13:18

1 ответ

Можно ли удалить части или разделы документов в корпусе пакета R tm?

Я построил корпус с пакетом R tm, состоящим из нескольких статей, и я хотел бы удалить раздел "Справочные материалы" из всех их. Это возможно?

r tm corpus

12 янв '16 в 13:54

1 ответ

Выделение скрытого распределения Дирихле (LDA) за счет ограничения размера слова для корпусных документов

Я генерировал темы с набором данных о клиентах, используя распределение скрытого дирихле (LDA) в python(пакет gensim). При создании токенов я выбираю из рецензий только слова длиной>= 3 (используя RegexpTokenizer): from nltk.tokenize import RegexpTo…

python tokenize gensim lda corpus

17 апр '16 в 06:18

2 ответа

Как удалить пустые документы из матрицы терминов документа в R

Я выполняю кластеризацию kmeans для данных в твиттере, для чего чищу твиты и создаю корпус. Позже я нахожу DTM и использую теорию TF-IDF. Но у моего dtm есть несколько пустых документов, которые я хочу удалить, потому что kmeans не может работать дл…

r cluster-analysis k-means corpus

02 дек '17 в 06:09

0 ответов

Статистический тест для нормализованной частоты в R

Я извлек частоту двух слов (может, может) из двух корпусов (Корпус1, Корпус2). Я хочу проверить, существует ли значительная разница между счетами в двух корпусах, но, поскольку корпуса имеют разные размеры, я должен нормализовать эти показатели (нап…

r frequency corpus

28 фев '19 в 07:43

1 ответ

Удалить слова с длиной больше X в R

В программировании на R после того, как я удалил знаки препинания, цифры и символы не ascii, у меня осталось много слов с длинными символами: ques1<-gsub("[[:digit:]]"," ", ques1,perl=TRUE) ques1<-gsub("[[:punct:]]"," ", ques1,perl=TRUE) ques1…

r regex gsub corpus

21 сен '15 в 13:57

0 ответов

Как создать текстовые файлы с тегами корпус

У меня есть множество простых текстовых файлов (в формате.txt). Мне нужно использовать размеченный читатель корпуса и иметь категории для моего проекта, для этого: Сначала мне нужно, чтобы эти файлы были помечены POS для каждого слова. Есть ли какая…

python-3.x nlp nltk corpus tagged-corpus

02 ноя '16 в 18:33

1 ответ

Как получить самое частое слово из корпуса?

Я работаю с корпусами и хочу получить наиболее и наименее используемый класс слов и слов из корпуса. У меня есть начало кода, но я получаю некоторые ошибки, с которыми я не знаю, как справиться. Я хочу получить наиболее часто встречающееся слово из …

python python-2.7 nltk counter corpus

03 мар '17 в 08:35

1 ответ

Python NLTK Сделать корпус из ZIP-файлов

Я пытаюсь создать свой собственный корпус в НЛТК из ок. 200 тыс. Текстовых файлов, каждый из которых хранится в собственной папке zip. Это выглядит следующим образом: Parent_dirtext1.ziptext1.txt Я использую следующий код и пытаюсь получить доступ к…

python zip nltk corpus

14 фев '18 в 18:20

2 ответа

Как выбрать только подмножество корпусных терминов для создания TermDocumentMatrix в TM

У меня огромный корпус, и меня интересует только появление нескольких терминов, которые я знаю заранее. Есть ли способ создать матрицу документа термина из корпуса, используя tm пакет, где должны использоваться только те термины, которые я указал за…

r tm corpus term-document-matrix

19 ноя '14 в 03:12

1 ответ

Как получить доступ к элементам корпуса и записать в файл в R?

Я имею дело с vcorpus в R, который выглядит так: Я называю content-> content, а затем content-> meta-> id для каждого отдельного документа. Я хочу написать только content-> content и content-> meta-> id для отдельных текстовых файлов для каждого док…

r nlp rstudio corpus

13 окт '17 в 20:58

1 ответ

Как натренировать предварительно подготовленный бинарный файл на моем собственном корпусе с помощью gensim?

Эй, ребята, у меня есть предварительно подготовленный бинарный файл, и я хочу обучить его на своем корпусе. Подход, который я пробовал: Я попытался извлечь txt-файл из имеющегося у меня bin-файла и использовать его в качестве файла word2vec во время…

nlp gensim models corpus

19 июл '18 в 05:24

1 ответ

R: Изменить многострочный символ на корпус одного документа

Я читаю в файле твитов. Каждый твит находится в отдельной строке. Когда я использую readLines(), результатом является символ с тысячами строк. Использование пакета tm дает мне объект VCorpus с тысячами документов, и в результате TermDocumentMatrix п…

r tm corpus documents

12 мар '15 в 16:49

0 ответов

Что касается выпуска корпусов с выбором корпуса, обучением и исполнением?

Я нахожусь в поисках Корпуса, который мне нужен для обучения NaiveBayes Algo в NLTK. Но я не понимаю, как обрабатывать шаг за шагом. Я беру новостные статьи в качестве входных данных, а затем я думаю, что мне нужно обучить один алгоритм машинного об…

python algorithm nlp nltk corpus

05 июн '15 в 05:10

2 ответа

Как изменить формат списка в текстовый файл и передать его в качестве аргумента функции, определенной в python?

Как передать два текстовых файла в качестве аргумента функции, определенной вместо списка в качестве аргумента? Мой код содержит три пары предложений, определенных в списке. Передается в качестве аргумента функции em_run, Теперь мне нужно прочитать …

python list function corpus

26 июн '15 в 04:44

1 ответ

Как читать и маркировать построчно текстовый файл, используя nltk.corpus в Python

Моя задача - классифицировать документы по двум данным обучения good_reviews.txt а также bad_reviews.txt, Поэтому для начала мне нужно загрузить и пометить свои данные обучения, где каждая строка представляет собой сам документ, который соответствуе…

python nltk corpus

27 апр '14 в 21:12

3 ответа

Нужен бесплатный словарь английского языка или корпус, в конечном итоге для базы данных MySQL

Я пытаюсь найти бесплатный загружаемый словарь (или Корпус может быть лучшим словом), который я могу импортировать в MySQL. Мне нужно, чтобы слова имели тип (существительное, глагол, прилагательное), связанный с ними. Любые советы о том, где я могу …

mysql database dictionary corpus

12 дек '09 в 08:47