Описание тега word2vec
Этот инструмент обеспечивает эффективную реализацию архитектур непрерывного набора слов и скип-грамм для вычисления векторных представлений слов. Эти представления могут впоследствии использоваться во многих приложениях обработки естественного языка и для дальнейших исследований.
1
ответ
Как спроектировать выходной слой модели word-RNN с использованием вложения word2vec
Я пытаюсь создать Word-RNN-эквивалент Char-RNN, сеть должна генерировать следующее слово в предложении. В качестве входных данных я использую предварительно обученные 100-мерные векторы word2vec, размер скрытого слоя равен 200. Моя основная проблема…
08 окт '17 в 10:41
1
ответ
Включая категорические особенности наряду с текстом в словесном подходе - Python
Мои данные имеют сочетание текстовых и категориальных особенностей. Это выглядит как: cr_id description business type status 1 More robust system required secured loan system rejected 2 More robust system required secured loan system rejected 3 gran…
05 мар '18 в 06:52
1
ответ
Получение данных из wtforms
Я экспериментировал с Word2vec и Gensim в качестве его реализации на Python. Теперь я должен сделать свою модель доступной на веб-сайте - поэтому мне нужен Flask. Я определил форму в forms.py так: from wtforms Import Form, StringField, SubmitField, …
02 май '16 в 18:25
1
ответ
Как использовать слой Keras Embedding, если имеется более 1 текстовых объектов
Я понимаю, как использовать слой Keras Embedded в случае, если есть отдельная текстовая функция, как в классификации обзора IMDB. Тем не менее, я не совсем понимаю, как использовать слои для встраивания, когда у меня есть проблема с классификацией, …
02 апр '18 в 05:28
1
ответ
Получение матрицы расстояний и матрицы характеристик из модели word2vec
Я сгенерировал модель word2vec, используя gensim для огромного корпуса, и мне нужно сгруппировать словари, используя k означает кластеризацию для того, что мне нужно: матрица косинусного расстояния (слово в слово, поэтому размер матрицы число_фо_сло…
24 июл '17 в 11:56
1
ответ
Как повернуть word2vec на другое word2vec?
Я тренирую несколько моделей word2vec с Gensim. Каждый из word2vec будет иметь тот же параметр и размерность, но обучен с немного различными данными. Затем я хочу сравнить, как изменение данных повлияло на векторное представление некоторых слов. Но …
13 июл '18 в 17:35
1
ответ
Tensorflow word2vec InvalidArgumentError: Назначение требует соответствия форм обоих тензоров
Я использую этот код для обучения модели word2vec. Я пытаюсь тренировать это постепенно, используя saver.restore(), Я использую новые данные после восстановления модели. Так как размер словарного запаса для старых данных и новых данных не совпадает,…
21 апр '18 в 16:10
1
ответ
Загрузить gensim Word2Vec, вычисленный в Python 2, в Python 3
У меня есть модель Word2Vec Gensim, вычисленная в Python 2, например: from gensim.models import Word2Vec from gensim.models.word2vec import LineSentence model = Word2Vec(LineSentence('enwiki.txt'), size=100, window=5, min_count=5, workers=15) model.…
08 ноя '15 в 16:20
1
ответ
Передача обучения gensim Word2vec (из не-gensim-модели)
У меня есть набор встраиваний, обученных с помощью нейронной сети, которая не имеет ничего общего с gensim's word2vec. Я хочу использовать эти вложения в качестве начальных весов в gensim.Word2vec, Теперь я вижу, что могу model.load(SOME_MODEL) и за…
24 дек '17 в 09:58
2
ответа
Проблемы с запуском gensim Word2Vec
Я пытаюсь обучить встраиванию слов (word2vec) в свой собственный набор данных с помощью библиотеки gensim. model = Word2Vec(sentences=alp[:20],size=100, window=6, min_count=5) где alp - список, содержащий токены отдельных предложений в моем корпусе.…
12 мар '18 в 06:34
0
ответов
Gensim рабочий поток застрял
Я тренирую вложения документов на ~20 миллионов предложений и использую параллельную обработку в gensim. Я создаю свою модель и тренируюсь с помощью следующего кода class read_corpus(object): def __init__(self, fname, n): self.fname = fname self.n =…
29 апр '18 в 17:42
1
ответ
Какой способ восстановить модель doc2vec более эффективен?
После обучения модели doc2vec я хочу повторно использовать векторы документа в другом модуле. Кажется, есть два способа реализовать это: сохранить модель и сохранить векторы документов в виде словаря. Мне просто интересно, какой из них более эффекти…
21 дек '17 в 02:54
1
ответ
Понимание gensim word2vec's most_s Similar
Я не уверен, как я должен использовать самый-похожий метод Word2Vec от gensim. Допустим, вы хотите проверить проверенный пример: мужчина - король, а женщина - Х; найти X. Я думал, что это то, что вы могли бы сделать с этим методом, но из результатов…
07 фев '19 в 18:48
1
ответ
Добавить новые слова в GoogleNews от gensim
Я хочу получить вложение слов для слов в корпусе. Я решил использовать предварительно обученные векторы слов в GoogleNews от библиотеки gensim. Но мой корпус содержит некоторые слова, которых нет в словах GoogleNews. для этих пропущенных слов я хочу…
31 май '18 в 07:31
0
ответов
Добавить новый оператор в tenorflow на Google Colab
Я пытаюсь скомпилировать некоторые файлы.cc в Google Colab (как показано здесь и здесь), но я не могу найти файл op.h, чтобы включить, я получаю следующую ошибку при компиляции: word2vec_ops.cc:16:10: fatal error: tensorflow/core/framework/op.h: No …
08 янв '19 в 08:59
1
ответ
Ключ Python Gensim word2vec
Я хочу сделать Word2VEC с Gensim. Я слышал, что словарный состав должен быть в кодировке Unicode, поэтому я преобразовал его в кодировку Unicode. # -*- encoding:utf-8 -*- # !/usr/bin/env python import sys reload(sys) sys.setdefaultencoding('utf-8') …
28 мар '17 в 09:32
2
ответа
word2Vec и сокращения
Я работаю над задачей классификации текста, где мой набор данных содержит много сокращений и имен собственных. Например: Milka Choc. бар. Моя идея состоит в том, чтобы использовать двунаправленную модель LSTM с встраиванием в word2vec. И вот моя про…
18 июн '18 в 09:28
1
ответ
Используя предварительно обученные векторы word2vec, как генерировать идентификаторы предложения в качестве входных данных для функции tf.nn.embedding_lookup в тензорном потоке?
Чтобы извлечь встраиваемые представления входных данных, в документации по тензорному потоку сказано, что мы можем использовать следующее: embed = tf.nn.embedding_lookup(embeddings, input_data) Согласно документации TF, второй параметр функции tf.nn…
04 янв '17 в 15:13
1
ответ
Параметр командной строки в word2vec
Я хочу использовать word2vec для создания собственного словесного векторного корпуса с текущей версией английской википедии, но не могу найти объяснение параметра командной строки для использования этой программы. В demp-скрипте вы можете найти след…
08 июн '15 в 13:14
1
ответ
Почему в gensim doc2vec почти все сходства косинусов положительны между векторами слова или документа?
Я вычислил сходства документов, используя Doc2Vec.docvecs.simility() в gensim. Теперь я бы ожидал, что сходства косинусов будут лежать в диапазоне [0.0, 1.0], если gensim использовал абсолютное значение косинуса в качестве метрики подобия, или приме…
03 июн '17 в 15:29