Описание тега text2vec

Описание тега Вопросы с тегом

NoneText2vec - R package which provides a fast and memory efficient framework for text mining applications within R. Vectorization, word embeddings, topic modelling and more.

2 ответа

Функция R со ссылкой на аргумент без его оценки

islands1<-islands #a named num (vector) data.frame(island_col=names(islands1), number_col=islands1,row.names=NULL) Это создает информационный кадр, состоящий из двух столбцов, первый содержит имена из названного вектора и называется "island_col",…

r function indexing text2vec

19 июл '18 в 22:30

1 ответ

H20: как использовать градиентное усиление для текстовых данных?

Я пытаюсь реализовать очень простую проблему обучения ML, где я использую текст, чтобы предсказать какой-то результат. В R некоторые основные примеры будут: импортировать поддельные, но забавные текстовые данные library(caret) library(dplyr) library…

r apache-spark h2o sparklyr text2vec

14 июн '17 в 21:28

1 ответ

text2vec - Слова тем обновляются с новыми данными?

В настоящее время я выполняю тему моделирования с использованием LDA из text2vec пакет. Мне удалось создать матрицу DTM, а затем применить LDA И его fit_transform метод с n_topics=50, Когда я смотрю на главные слова из каждой темы, у меня возник воп…

text2vec

27 ноя '17 в 22:51

0 ответов

Использование GLOVEs pretrained glove.6B.50.txt в качестве основы для встраивания слов R

Я пытаюсь преобразовать текстовые данные в векторы с помощью GLOVE в r. Мой план состоял в том, чтобы усреднить векторы слов в предложении, но я не могу добраться до стадии векторизации слова. Я скачал файл glove.6b.50.txt и его родительский zip-фай…

r word-embedding text2vec glove

17 ноя '18 в 05:18

0 ответов

R: как добавить числовые переменные в разреженную матрицу?

Рассмотрим следующий пример library(text2vec) library(glmnet) library(dplyr) dataframe <- data_frame(id = c(1,2,3,4), text = c("this is a test", "this is another",'hello','what???'), value = c(200,400,120,300), output = c('win', 'lose','win','los…

r machine-learning r-caret text-classification caret text2vec

08 июн '17 в 00:36

1 ответ

Glove Word Mover Сходство

Я хочу рассчитать сходство текста, используя дистанцию перемещения слов. У меня есть два разных набора данных (корпус). Увидеть ниже. A <- data.frame(name = c( "X-ray right leg arteries", "consultation of gynecologist", "x-ray leg arteries", "x…

r nlp text2vec

08 сен '18 в 17:10

1 ответ

Тематическая модель LDA с использованием пакета R text2vec и LDAvis в блестящем приложении

Вот код для моделирования тем LDA с помощью пакета R text2vec: library(text2vec) tokens = docs$text %>% # docs$text: a colection of text documents word_tokenizer it = itoken(tokens, ids = docs$id, progressbar = FALSE) v = create_vocabulary(it) %&…

r shiny visualization topic-modeling text2vec

11 сен '18 в 04:58

2 ответа

R - Установка text2vec Ubuntu VM

Я пытаюсь установить text2vec на бесплатной Ubuntu VM AWS EC2. Я получаю это сообщение об ошибке: > install.packages(c("text2vec"), type = "source") Installing package into ‘/usr/local/lib/R/site-library’ (as ‘lib’ is unspecified) trying URL 'htt…

r amazon-web-services ubuntu install text2vec

20 апр '18 в 23:40

2 ответа

Действительно быстрая векторизация слова ngram в R

Редактировать: новый пакет text2vec отлично, и решает эту проблему (и многие другие) очень хорошо. text2vec на CRAN text2vec на виньетке github, которая иллюстрирует токенизацию ngram У меня есть довольно большой набор текстовых данных в R, который …

r vectorization text-mining n-gram text2vec

22 июл '15 в 17:50

1 ответ

Построение эффекта сокращения документа на корпусе текста в R text2vec

Можно ли проверить, сколько документов осталось в корпусе после подачи заявления? prune_vocabulary в text2vec пакет? Вот пример получения набора данных и сокращения словарного запаса library(text2vec) library(data.table) library(tm) #Load movie revi…

r nlp text2vec

06 мар '17 в 18:59

0 ответов

Расслабленное расстояние Word Mover в R

Я использую расстояние Relaxed Word Mover в пакете text2vec вычислить расстояние между документами, чтобы определить наиболее похожий документ для каждого целевого документа. Векторы слова компилируются с использованием FastText доступны в пакакэге …

python r gensim wmd text2vec

06 дек '18 в 09:43

1 ответ

Почему LSA в text2vec каждый раз дает разные результаты?

Я использовал скрытый семантический анализ в text2vec пакет для генерации векторов слов и использования преобразования для подгонки новых данных, когда я заметил что-то странное, пробелы не выстраиваются в линию при обучении одним и тем же данным. К…

r quanteda lsa text2vec

13 фев '19 в 03:10

1 ответ

Нормализованные темы документа вероятности text2vec R

Я пытаюсь выяснить вероятности документа темы после запуска модели lda с помощью пакета text2vec в R. Следующие команды генерируют модель: lda_model <- LDA$new(n_topics = n_topics, doc_topic_prior = 0.1, topic_word_prior = 0.01) doc_topic_distr &…

r text2vec

20 фев '18 в 15:56

1 ответ

Text2Vec классификация с проблемами карет

Некоторый контекст: Работа с классификацией текста и большими разреженными матрицами в R Я работал над проблемой классификации текстовых мультиклассов с text2vec пакет и caret, План состоит в том, чтобы использовать text2vec для построения матрицы т…

r svm r-caret text-classification text2vec

04 авг '16 в 13:19

1 ответ

Как совместить две модели GloVe в text2vec?

Допустим, я обучил две отдельные модели векторного пространства GloVe (используя text2vec в R) на основе двух разных корпусов. Для этого могут быть разные причины: например, две базовые корпуса могут быть двух разных периодов времени или двух очень …

matrix nlp text2vec

19 ноя '16 в 20:17

1 ответ

Применить вложения text2vec к новым данным

Я использовал text2vec для генерации пользовательских встраиваний слов из набора проприетарных текстовых данных, которые содержат много отраслевого жаргона (поэтому стандартные вложения, подобные тем, которые доступны в Google, не будут работать). А…

r text2vec

02 фев '17 в 21:20

1 ответ

Как я могу создать матрицу tf-idf с символьной функцией n-грамм?

Как я могу использовать пакет text2vec для создания матрицы tdf-idf с символьными функциями n-граммы?

tf-idf text2vec

19 мар '18 в 09:24

1 ответ

Лемматизация с использованием txt файла с леммами в R

Я хотел бы использовать внешний текстовый файл с польскими леммами, структурированными следующим образом: (источник лемм для многих других языков http://www.lexiconista.com/datasets/lemmatization/) Abadan Abadanem Abadan Abadanie Abadan Abadanowi Ab…

r text-mining tm quanteda text2vec

18 авг '17 в 18:02

1 ответ

Могут ли text2vec и topicmodels генерировать похожие темы с подходящими настройками параметров для LDA?

Мне было интересно, как отличаются результаты разных пакетов, следовательно, алгоритмов и могут ли параметры быть установлены таким образом, чтобы создавать похожие темы. Я посмотрел на пакеты text2vec а также topicmodels особенно. Я использовал при…

r lda text2vec topicmodels

17 окт '17 в 10:43

1 ответ

Подготовка встраивания слов в пакет text2vec R

На основе виньетки пакета text2vec приведен пример создания встраивания слов. Вики-данные токенизируются, а затем создается термин матрица совместного использования (TCM), который используется для создания встраивания слов с использованием функции п…

r text2vec

15 сен '16 в 15:28