Описание тега text2vec

NoneText2vec - R package which provides a fast and memory efficient framework for text mining applications within R. Vectorization, word embeddings, topic modelling and more.
2 ответа

Функция R со ссылкой на аргумент без его оценки

islands1<-islands #a named num (vector) data.frame(island_col=names(islands1), number_col=islands1,row.names=NULL) Это создает информационный кадр, состоящий из двух столбцов, первый содержит имена из названного вектора и называется "island_col",…
19 июл '18 в 22:30
1 ответ

H20: как использовать градиентное усиление для текстовых данных?

Я пытаюсь реализовать очень простую проблему обучения ML, где я использую текст, чтобы предсказать какой-то результат. В R некоторые основные примеры будут: импортировать поддельные, но забавные текстовые данные library(caret) library(dplyr) library…
14 июн '17 в 21:28
1 ответ

text2vec - Слова тем обновляются с новыми данными?

В настоящее время я выполняю тему моделирования с использованием LDA из text2vec пакет. Мне удалось создать матрицу DTM, а затем применить LDA И его fit_transform метод с n_topics=50, Когда я смотрю на главные слова из каждой темы, у меня возник воп…
27 ноя '17 в 22:51
0 ответов

Использование GLOVEs pretrained glove.6B.50.txt в качестве основы для встраивания слов R

Я пытаюсь преобразовать текстовые данные в векторы с помощью GLOVE в r. Мой план состоял в том, чтобы усреднить векторы слов в предложении, но я не могу добраться до стадии векторизации слова. Я скачал файл glove.6b.50.txt и его родительский zip-фай…
17 ноя '18 в 05:18
0 ответов

R: как добавить числовые переменные в разреженную матрицу?

Рассмотрим следующий пример library(text2vec) library(glmnet) library(dplyr) dataframe <- data_frame(id = c(1,2,3,4), text = c("this is a test", "this is another",'hello','what???'), value = c(200,400,120,300), output = c('win', 'lose','win','los…
1 ответ

Glove Word Mover Сходство

Я хочу рассчитать сходство текста, используя дистанцию ​​перемещения слов. У меня есть два разных набора данных (корпус). Увидеть ниже. A <- data.frame(name = c( "X-ray right leg arteries", "consultation of gynecologist", "x-ray leg arteries", "x…
08 сен '18 в 17:10
1 ответ

Тематическая модель LDA с использованием пакета R text2vec и LDAvis в блестящем приложении

Вот код для моделирования тем LDA с помощью пакета R text2vec: library(text2vec) tokens = docs$text %>% # docs$text: a colection of text documents word_tokenizer it = itoken(tokens, ids = docs$id, progressbar = FALSE) v = create_vocabulary(it) %&…
11 сен '18 в 04:58
2 ответа

R - Установка text2vec Ubuntu VM

Я пытаюсь установить text2vec на бесплатной Ubuntu VM AWS EC2. Я получаю это сообщение об ошибке: > install.packages(c("text2vec"), type = "source") Installing package into ‘/usr/local/lib/R/site-library’ (as ‘lib’ is unspecified) trying URL 'htt…
20 апр '18 в 23:40
2 ответа

Действительно быстрая векторизация слова ngram в R

Редактировать: новый пакет text2vec отлично, и решает эту проблему (и многие другие) очень хорошо. text2vec на CRAN text2vec на виньетке github, которая иллюстрирует токенизацию ngram У меня есть довольно большой набор текстовых данных в R, который …
22 июл '15 в 17:50
1 ответ

Построение эффекта сокращения документа на корпусе текста в R text2vec

Можно ли проверить, сколько документов осталось в корпусе после подачи заявления? prune_vocabulary в text2vec пакет? Вот пример получения набора данных и сокращения словарного запаса library(text2vec) library(data.table) library(tm) #Load movie revi…
06 мар '17 в 18:59
0 ответов

Расслабленное расстояние Word Mover в R

Я использую расстояние Relaxed Word Mover в пакете text2vec вычислить расстояние между документами, чтобы определить наиболее похожий документ для каждого целевого документа. Векторы слова компилируются с использованием FastText доступны в пакакэге …
06 дек '18 в 09:43
1 ответ

Почему LSA в text2vec каждый раз дает разные результаты?

Я использовал скрытый семантический анализ в text2vec пакет для генерации векторов слов и использования преобразования для подгонки новых данных, когда я заметил что-то странное, пробелы не выстраиваются в линию при обучении одним и тем же данным. К…
13 фев '19 в 03:10
1 ответ

Нормализованные темы документа вероятности text2vec R

Я пытаюсь выяснить вероятности документа темы после запуска модели lda с помощью пакета text2vec в R. Следующие команды генерируют модель: lda_model <- LDA$new(n_topics = n_topics, doc_topic_prior = 0.1, topic_word_prior = 0.01) doc_topic_distr &…
20 фев '18 в 15:56
1 ответ

Text2Vec классификация с проблемами карет

Некоторый контекст: Работа с классификацией текста и большими разреженными матрицами в R Я работал над проблемой классификации текстовых мультиклассов с text2vec пакет и caret, План состоит в том, чтобы использовать text2vec для построения матрицы т…
04 авг '16 в 13:19
1 ответ

Как совместить две модели GloVe в text2vec?

Допустим, я обучил две отдельные модели векторного пространства GloVe (используя text2vec в R) на основе двух разных корпусов. Для этого могут быть разные причины: например, две базовые корпуса могут быть двух разных периодов времени или двух очень …
19 ноя '16 в 20:17
1 ответ

Применить вложения text2vec к новым данным

Я использовал text2vec для генерации пользовательских встраиваний слов из набора проприетарных текстовых данных, которые содержат много отраслевого жаргона (поэтому стандартные вложения, подобные тем, которые доступны в Google, не будут работать). А…
02 фев '17 в 21:20
1 ответ

Как я могу создать матрицу tf-idf с символьной функцией n-грамм?

Как я могу использовать пакет text2vec для создания матрицы tdf-idf с символьными функциями n-граммы?
19 мар '18 в 09:24
1 ответ

Лемматизация с использованием txt файла с леммами в R

Я хотел бы использовать внешний текстовый файл с польскими леммами, структурированными следующим образом: (источник лемм для многих других языков http://www.lexiconista.com/datasets/lemmatization/) Abadan Abadanem Abadan Abadanie Abadan Abadanowi Ab…
18 авг '17 в 18:02
1 ответ

Могут ли text2vec и topicmodels генерировать похожие темы с подходящими настройками параметров для LDA?

Мне было интересно, как отличаются результаты разных пакетов, следовательно, алгоритмов и могут ли параметры быть установлены таким образом, чтобы создавать похожие темы. Я посмотрел на пакеты text2vec а также topicmodels особенно. Я использовал при…
17 окт '17 в 10:43
1 ответ

Подготовка встраивания слов в пакет text2vec R

На основе виньетки пакета text2vec приведен пример создания встраивания слов. Вики-данные токенизируются, а затем создается термин матрица совместного использования (TCM), который используется для создания встраивания слов с использованием функции п…
15 сен '16 в 15:28