Описание тега corpus
Корпус чаще всего означает набор структурированного текста. Пожалуйста, подумайте о том, чтобы задать свой вопрос на https://opendata.stackexchange.com, если ваш вопрос не имеет непосредственного отношения к программированию или вы просто ищете свободно доступный корпус для любых целей.
2
ответа
Какая польза от Brown Corpus для измерения семантического сходства на основе WordNet?
Я сталкивался с несколькими методами измерения семантического сходства, которые используют структуру и иерархию WordNet, например, мера Цзяна и Конрата (JNC), мера Ресника (RES), мера Лин (LIN) и т. Д. Они измеряются с помощью NLTK: sim2=wn.jcn_simi…
09 сен '13 в 19:45
1
ответ
Как создать словарь слов с частотой каждого слова в php или python
У меня большой текстовый файл scrapped_db.txt который содержит более 100 миллионов слов, а размер файла составляет 1,7 ГБ. Я создал этот файл с помощью Python Scrapy Framework, чтобы очистить сайт газеты. Теперь я хочу создать словарь из УНИКАЛЬНЫХ …
29 июл '18 в 08:09
1
ответ
Textacy не может создать корпус из класса textacy.doc.Doc
Я просто работаю, думал текстовые учебники с данными за пределами модуля наборов данных для работы. Я получаю некоторые текстовые данные из фрейма данных и храню их как строковую переменную для работы. def mergeText(df): content = '' for i in df['te…
11 дек '17 в 15:03
0
ответов
Как удалить пустые документы из Term-Document-Matrix в R
Итак, я создал матрицу терминов документов из корпуса в R: tdm_tfidf <-TermDocumentMatrix(corpus,control=list(weighting=weightTfIdf)) Однако есть предупреждение, что TDM содержит пустые документы: Warning: In weighting(x) : empty document(s): 54 …
31 мар '18 в 13:18
1
ответ
Можно ли удалить части или разделы документов в корпусе пакета R tm?
Я построил корпус с пакетом R tm, состоящим из нескольких статей, и я хотел бы удалить раздел "Справочные материалы" из всех их. Это возможно?
12 янв '16 в 13:54
1
ответ
Выделение скрытого распределения Дирихле (LDA) за счет ограничения размера слова для корпусных документов
Я генерировал темы с набором данных о клиентах, используя распределение скрытого дирихле (LDA) в python(пакет gensim). При создании токенов я выбираю из рецензий только слова длиной>= 3 (используя RegexpTokenizer): from nltk.tokenize import RegexpTo…
17 апр '16 в 06:18
2
ответа
Как удалить пустые документы из матрицы терминов документа в R
Я выполняю кластеризацию kmeans для данных в твиттере, для чего чищу твиты и создаю корпус. Позже я нахожу DTM и использую теорию TF-IDF. Но у моего dtm есть несколько пустых документов, которые я хочу удалить, потому что kmeans не может работать дл…
02 дек '17 в 06:09
0
ответов
Статистический тест для нормализованной частоты в R
Я извлек частоту двух слов (может, может) из двух корпусов (Корпус1, Корпус2). Я хочу проверить, существует ли значительная разница между счетами в двух корпусах, но, поскольку корпуса имеют разные размеры, я должен нормализовать эти показатели (нап…
28 фев '19 в 07:43
1
ответ
Удалить слова с длиной больше X в R
В программировании на R после того, как я удалил знаки препинания, цифры и символы не ascii, у меня осталось много слов с длинными символами: ques1<-gsub("[[:digit:]]"," ", ques1,perl=TRUE) ques1<-gsub("[[:punct:]]"," ", ques1,perl=TRUE) ques1…
21 сен '15 в 13:57
0
ответов
Как создать текстовые файлы с тегами корпус
У меня есть множество простых текстовых файлов (в формате.txt). Мне нужно использовать размеченный читатель корпуса и иметь категории для моего проекта, для этого: Сначала мне нужно, чтобы эти файлы были помечены POS для каждого слова. Есть ли какая…
02 ноя '16 в 18:33
1
ответ
Как получить самое частое слово из корпуса?
Я работаю с корпусами и хочу получить наиболее и наименее используемый класс слов и слов из корпуса. У меня есть начало кода, но я получаю некоторые ошибки, с которыми я не знаю, как справиться. Я хочу получить наиболее часто встречающееся слово из …
03 мар '17 в 08:35
1
ответ
Python NLTK Сделать корпус из ZIP-файлов
Я пытаюсь создать свой собственный корпус в НЛТК из ок. 200 тыс. Текстовых файлов, каждый из которых хранится в собственной папке zip. Это выглядит следующим образом: Parent_dirtext1.ziptext1.txt Я использую следующий код и пытаюсь получить доступ к…
14 фев '18 в 18:20
2
ответа
Как выбрать только подмножество корпусных терминов для создания TermDocumentMatrix в TM
У меня огромный корпус, и меня интересует только появление нескольких терминов, которые я знаю заранее. Есть ли способ создать матрицу документа термина из корпуса, используя tm пакет, где должны использоваться только те термины, которые я указал за…
19 ноя '14 в 03:12
1
ответ
Как получить доступ к элементам корпуса и записать в файл в R?
Я имею дело с vcorpus в R, который выглядит так: Я называю content-> content, а затем content-> meta-> id для каждого отдельного документа. Я хочу написать только content-> content и content-> meta-> id для отдельных текстовых файлов для каждого док…
13 окт '17 в 20:58
1
ответ
Как натренировать предварительно подготовленный бинарный файл на моем собственном корпусе с помощью gensim?
Эй, ребята, у меня есть предварительно подготовленный бинарный файл, и я хочу обучить его на своем корпусе. Подход, который я пробовал: Я попытался извлечь txt-файл из имеющегося у меня bin-файла и использовать его в качестве файла word2vec во время…
19 июл '18 в 05:24
1
ответ
R: Изменить многострочный символ на корпус одного документа
Я читаю в файле твитов. Каждый твит находится в отдельной строке. Когда я использую readLines(), результатом является символ с тысячами строк. Использование пакета tm дает мне объект VCorpus с тысячами документов, и в результате TermDocumentMatrix п…
12 мар '15 в 16:49
0
ответов
Что касается выпуска корпусов с выбором корпуса, обучением и исполнением?
Я нахожусь в поисках Корпуса, который мне нужен для обучения NaiveBayes Algo в NLTK. Но я не понимаю, как обрабатывать шаг за шагом. Я беру новостные статьи в качестве входных данных, а затем я думаю, что мне нужно обучить один алгоритм машинного об…
05 июн '15 в 05:10
2
ответа
Как изменить формат списка в текстовый файл и передать его в качестве аргумента функции, определенной в python?
Как передать два текстовых файла в качестве аргумента функции, определенной вместо списка в качестве аргумента? Мой код содержит три пары предложений, определенных в списке. Передается в качестве аргумента функции em_run, Теперь мне нужно прочитать …
26 июн '15 в 04:44
1
ответ
Как читать и маркировать построчно текстовый файл, используя nltk.corpus в Python
Моя задача - классифицировать документы по двум данным обучения good_reviews.txt а также bad_reviews.txt, Поэтому для начала мне нужно загрузить и пометить свои данные обучения, где каждая строка представляет собой сам документ, который соответствуе…
27 апр '14 в 21:12
3
ответа
Нужен бесплатный словарь английского языка или корпус, в конечном итоге для базы данных MySQL
Я пытаюсь найти бесплатный загружаемый словарь (или Корпус может быть лучшим словом), который я могу импортировать в MySQL. Мне нужно, чтобы слова имели тип (существительное, глагол, прилагательное), связанный с ними. Любые советы о том, где я могу …
12 дек '09 в 08:47