Описание тега word2vec

Описание тега Вопросы с тегом

Этот инструмент обеспечивает эффективную реализацию архитектур непрерывного набора слов и скип-грамм для вычисления векторных представлений слов. Эти представления могут впоследствии использоваться во многих приложениях обработки естественного языка и для дальнейших исследований.

1 ответ

Как спроектировать выходной слой модели word-RNN с использованием вложения word2vec

Я пытаюсь создать Word-RNN-эквивалент Char-RNN, сеть должна генерировать следующее слово в предложении. В качестве входных данных я использую предварительно обученные 100-мерные векторы word2vec, размер скрытого слоя равен 200. Моя основная проблема…

08 окт '17 в 10:41

1 ответ

Включая категорические особенности наряду с текстом в словесном подходе - Python

Мои данные имеют сочетание текстовых и категориальных особенностей. Это выглядит как: cr_id description business type status 1 More robust system required secured loan system rejected 2 More robust system required secured loan system rejected 3 gran…

python word2vec categorical-data

05 мар '18 в 06:52

1 ответ

Получение данных из wtforms

Я экспериментировал с Word2vec и Gensim в качестве его реализации на Python. Теперь я должен сделать свою модель доступной на веб-сайте - поэтому мне нужен Flask. Я определил форму в forms.py так: from wtforms Import Form, StringField, SubmitField, …

python flask input word2vec wtforms

02 май '16 в 18:25

1 ответ

Как использовать слой Keras Embedding, если имеется более 1 текстовых объектов

Я понимаю, как использовать слой Keras Embedded в случае, если есть отдельная текстовая функция, как в классификации обзора IMDB. Тем не менее, я не совсем понимаю, как использовать слои для встраивания, когда у меня есть проблема с классификацией, …

keras word2vec word-embedding

02 апр '18 в 05:28

1 ответ

Получение матрицы расстояний и матрицы характеристик из модели word2vec

Я сгенерировал модель word2vec, используя gensim для огромного корпуса, и мне нужно сгруппировать словари, используя k означает кластеризацию для того, что мне нужно: матрица косинусного расстояния (слово в слово, поэтому размер матрицы число_фо_сло…

python k-means gensim word2vec

24 июл '17 в 11:56

1 ответ

Как повернуть word2vec на другое word2vec?

Я тренирую несколько моделей word2vec с Gensim. Каждый из word2vec будет иметь тот же параметр и размерность, но обучен с немного различными данными. Затем я хочу сравнить, как изменение данных повлияло на векторное представление некоторых слов. Но …

gensim word2vec word-embedding

13 июл '18 в 17:35

1 ответ

Tensorflow word2vec InvalidArgumentError: Назначение требует соответствия форм обоих тензоров

Я использую этот код для обучения модели word2vec. Я пытаюсь тренировать это постепенно, используя saver.restore(), Я использую новые данные после восстановления модели. Так как размер словарного запаса для старых данных и новых данных не совпадает,…

tensorflow word2vec

21 апр '18 в 16:10

1 ответ

Загрузить gensim Word2Vec, вычисленный в Python 2, в Python 3

У меня есть модель Word2Vec Gensim, вычисленная в Python 2, например: from gensim.models import Word2Vec from gensim.models.word2vec import LineSentence model = Word2Vec(LineSentence('enwiki.txt'), size=100, window=5, min_count=5, workers=15) model.…

python python-3.x encoding gensim word2vec

08 ноя '15 в 16:20

1 ответ

Передача обучения gensim Word2vec (из не-gensim-модели)

У меня есть набор встраиваний, обученных с помощью нейронной сети, которая не имеет ничего общего с gensim's word2vec. Я хочу использовать эти вложения в качестве начальных весов в gensim.Word2vec, Теперь я вижу, что могу model.load(SOME_MODEL) и за…

python gensim word2vec

24 дек '17 в 09:58

2 ответа

Проблемы с запуском gensim Word2Vec

Я пытаюсь обучить встраиванию слов (word2vec) в свой собственный набор данных с помощью библиотеки gensim. model = Word2Vec(sentences=alp[:20],size=100, window=6, min_count=5) где alp - список, содержащий токены отдельных предложений в моем корпусе.…

gensim word2vec

12 мар '18 в 06:34

0 ответов

Gensim рабочий поток застрял

Я тренирую вложения документов на ~20 миллионов предложений и использую параллельную обработку в gensim. Я создаю свою модель и тренируюсь с помощью следующего кода class read_corpus(object): def __init__(self, fname, n): self.fname = fname self.n =…

python nlp gensim word2vec doc2vec

29 апр '18 в 17:42

1 ответ

Какой способ восстановить модель doc2vec более эффективен?

После обучения модели doc2vec я хочу повторно использовать векторы документа в другом модуле. Кажется, есть два способа реализовать это: сохранить модель и сохранить векторы документов в виде словаря. Мне просто интересно, какой из них более эффекти…

word2vec doc2vec

21 дек '17 в 02:54

1 ответ

Понимание gensim word2vec's most_s Similar

Я не уверен, как я должен использовать самый-похожий метод Word2Vec от gensim. Допустим, вы хотите проверить проверенный пример: мужчина - король, а женщина - Х; найти X. Я думал, что это то, что вы могли бы сделать с этим методом, но из результатов…

python python-3.x nlp gensim word2vec

07 фев '19 в 18:48

1 ответ

Добавить новые слова в GoogleNews от gensim

Я хочу получить вложение слов для слов в корпусе. Я решил использовать предварительно обученные векторы слов в GoogleNews от библиотеки gensim. Но мой корпус содержит некоторые слова, которых нет в словах GoogleNews. для этих пропущенных слов я хочу…

python gensim word2vec google-news

31 май '18 в 07:31

0 ответов

Добавить новый оператор в tenorflow на Google Colab

Я пытаюсь скомпилировать некоторые файлы.cc в Google Colab (как показано здесь и здесь), но я не могу найти файл op.h, чтобы включить, я получаю следующую ошибку при компиляции: word2vec_ops.cc:16:10: fatal error: tensorflow/core/framework/op.h: No …

tensorflow google-colaboratory word2vec embedding

08 янв '19 в 08:59

1 ответ

Ключ Python Gensim word2vec

Я хочу сделать Word2VEC с Gensim. Я слышал, что словарный состав должен быть в кодировке Unicode, поэтому я преобразовал его в кодировку Unicode. # -*- encoding:utf-8 -*- # !/usr/bin/env python import sys reload(sys) sys.setdefaultencoding('utf-8') …

python unicode gensim word2vec

28 мар '17 в 09:32

2 ответа

word2Vec и сокращения

Я работаю над задачей классификации текста, где мой набор данных содержит много сокращений и имен собственных. Например: Milka Choc. бар. Моя идея состоит в том, чтобы использовать двунаправленную модель LSTM с встраиванием в word2vec. И вот моя про…

python keras nlp word2vec

18 июн '18 в 09:28

1 ответ

Используя предварительно обученные векторы word2vec, как генерировать идентификаторы предложения в качестве входных данных для функции tf.nn.embedding_lookup в тензорном потоке?

Чтобы извлечь встраиваемые представления входных данных, в документации по тензорному потоку сказано, что мы можем использовать следующее: embed = tf.nn.embedding_lookup(embeddings, input_data) Согласно документации TF, второй параметр функции tf.nn…

python tensorflow gensim word2vec

04 янв '17 в 15:13

1 ответ

Параметр командной строки в word2vec

Я хочу использовать word2vec для создания собственного словесного векторного корпуса с текущей версией английской википедии, но не могу найти объяснение параметра командной строки для использования этой программы. В demp-скрипте вы можете найти след…

nlp word2vec language-model

08 июн '15 в 13:14

1 ответ

Почему в gensim doc2vec почти все сходства косинусов положительны между векторами слова или документа?

Я вычислил сходства документов, используя Doc2Vec.docvecs.simility() в gensim. Теперь я бы ожидал, что сходства косинусов будут лежать в диапазоне [0.0, 1.0], если gensim использовал абсолютное значение косинуса в качестве метрики подобия, или приме…

python gensim word2vec doc2vec

03 июн '17 в 15:29