Описание тега doc2vec
Doc2Vec - это неконтролируемый алгоритм, используемый для преобразования документов в векторы ("плотные вложения"). Он основан на статье "Вектор абзаца" и реализован в библиотеке Gensim Python и других местах. Алгоритм может работать либо в режиме "Распределенный пакет слов" (PV-DBOW, который работает несколько аналогично режиму пропуска грамматики в Word2Vec), либо в режиме "Распределенная память" (PV-DM, который больше аналогичен режиму CBOW. в Word2Vec.)
1
ответ
Предупреждение пользователя C-компилятора Doc2Vec
Надеюсь, у тебя хороший день. Я пытаюсь создать экземпляр модели Doc2Vec путем реализации следующего кода: model_dbow = Doc2Vec(dm=0, vector_size=300, negative=5, min_count=1, alpha=0.065, min_alpha=0.065) model_dbow.build_vocab([x for x in tqdm(all…
22 окт '18 в 21:32
1
ответ
Как doc2vec.infer_vector сочетается между словами?
Я обучил модель doc2vec, используя train (..) с настройками по умолчанию. Это сработало, но теперь мне интересно, как infer_vector объединяет входные слова, это просто среднее значение отдельных векторов слов? model.random.seed(0) model.infer_vector…
24 май '17 в 16:24
1
ответ
Получил EOFError при загрузке модели doc2vec
Я не смог загрузить модель doc2vec на свой компьютер, и я получил следующую ошибку. Но когда я загружаю эту модель на другие компьютеры, я могу использовать эту модель. Поэтому я знаю, что модель была построена правильно. что я должен делать. Это ко…
01 мар '17 в 18:34
1
ответ
ValueError: слишком много значений для распаковки для почтового индекса python2.7
Я хочу показать документы и слова модели doc2vec с t-SNE в другом цвете. Я написал следующий код в python2.7. Но я получил ошибку. Я не использовал t-SNE и заговор в python до сих пор. modelfile='/home/fl/models/Robust/dimention500/my_model.doc2vec'…
16 мар '18 в 14:01
1
ответ
AttributeError: у объекта "Tree" нет атрибута "words". Ошибка Doc2Vec
Я пытаюсь обучить встраиванию слова Doc2Vec в предварительно обработанные абзацы. Я удалил пунктуацию и провел токенизацию, pos-тег и chunking. import nltk from nltk import word_tokenize, pos_tag, ne_chunk from gensim.models.doc2vec import Doc2Vec n…
20 июл '18 в 08:28
0
ответов
Gensim рабочий поток застрял
Я тренирую вложения документов на ~20 миллионов предложений и использую параллельную обработку в gensim. Я создаю свою модель и тренируюсь с помощью следующего кода class read_corpus(object): def __init__(self, fname, n): self.fname = fname self.n =…
29 апр '18 в 17:42
1
ответ
Какой способ восстановить модель doc2vec более эффективен?
После обучения модели doc2vec я хочу повторно использовать векторы документа в другом модуле. Кажется, есть два способа реализовать это: сохранить модель и сохранить векторы документов в виде словаря. Мне просто интересно, какой из них более эффекти…
21 дек '17 в 02:54
1
ответ
Получение тегов для вектора в модели Doc2Vec
Я пытаюсь реализовать KNN без использования функции KNN. Как только я обучу модель Doc2vec, есть ли метод, который возвращает список кортежей каждой формы (вектор, тег), потому что я установил тег во время обучения, чтобы он был классом? Я делаю это…
29 янв '19 в 03:06
1
ответ
Почему в gensim doc2vec почти все сходства косинусов положительны между векторами слова или документа?
Я вычислил сходства документов, используя Doc2Vec.docvecs.simility() в gensim. Теперь я бы ожидал, что сходства косинусов будут лежать в диапазоне [0.0, 1.0], если gensim использовал абсолютное значение косинуса в качестве метрики подобия, или приме…
03 июн '17 в 15:29
3
ответа
Удаление рандомизации векторной инициализации для doc2vec
Я использую предварительно обученную модель doc2vec BOW (AP-news). Я делаю следующее: import gensim.models as g start_alpha=0.01 infer_epoch=1000 model="\\apnews_dbow\\doc2vec.bin" m = g.Doc2Vec.load(model) text='this is a sample text' vec=m.infer_v…
08 июн '17 в 19:02
1
ответ
Как найти косинусное сходство между двумя текстовыми документами с использованием Java?
Мне нужно сравнить большое количество твитов, содержащих определенный хэштег, чтобы отобразить твит с самым высоким содержанием. Для того же, мне нужно найти парное косинусное сходство между каждым из них и отобразить твит с наибольшим парным косину…
28 мар '17 в 16:58
3
ответа
Doc2Vec: Сходство между закодированными документами и невидимыми документами
У меня есть образец ~60000 документов. 700 из них мы закодировали вручную как имеющие определенный тип контента. Теперь мы бы хотели найти "наиболее похожие" документы на 700, которые мы уже написали вручную. Мы используем gensim doc2vec, и я не мог…
07 окт '18 в 21:18
1
ответ
Gensim Doc2Vec Обучение
Я использую gensim тренировать Doc2Vec модель на документы, присвоенные конкретным людям. Есть 10 миллионов документов и 8000 человек. Меня не волнуют все 8000 человек. Я забочусь о конкретной группе людей (скажем, от 1 до 500). Люди, в которых я за…
23 фев '18 в 13:40
0
ответов
Разница между tf.nn.embedding_lookup и предварительно обученной матрицей встраивания doc2vec для тестовых данных
В машинном обучении мы разделяем данные, чтобы обучать данные и тестировать данные (например, данные имеют только один столбец - список приложений, который представляет собой список установленных пользователем приложений, например com.aaa,com.bb,com…
07 май '18 в 06:25
1
ответ
Как использовать infer_vector в gensim.doc2vec?
def cosine(vector1,vector2): cosV12 = np.dot(vector1, vector2) / (linalg.norm(vector1) * linalg.norm(vector2)) return cosV12 model=gensim.models.doc2vec.Doc2Vec.load('Model_D2V_Game') string='民生 为了 父亲 我 要 坚强 地 ...' list=string.split(' ') vector1=mod…
09 июл '17 в 05:19
0
ответов
Модель распределенной памяти Doc2Vec векторов абзацев (PV-DM) не классифицируется
Я использую Keras для кодирования DM по статье Миколова. Документы, с которыми мы сталкиваемся, очень специфичны: у нас много разных документов (около 20 000), но очень мало разных слов (всего 100). Когда я использую вложение документа, чтобы класси…
03 окт '18 в 10:21
2
ответа
gensim doc2vec - Как сделать вывод о метке
Я использую реализацию gensim doc2vec, и у меня есть несколько тысяч документов, помеченных четырьмя метками. yield TaggedDocument(text_tokens, [labels]) Я тренирую модель Doc2Vec со списком этих TaggedDocument s. Однако я не уверен, как определить …
23 авг '18 в 12:11
1
ответ
Чем отличаются модели doc2vec, если для dbow_words установлено значение 1 или 0?
Я читаю эту страницу, но я не понимаю, чем отличаются модели, построенные на основе следующих кодов. Я знаю, что когда dbow_words равен 0, обучение doc-векторов происходит быстрее. Первая модель model = doc2vec.Doc2Vec(documents1, size = 100, window…
16 май '17 в 21:15
0
ответов
doc2vec: анализ чувствительности / вклад в прогнозирование?
Недавно я запускаю модель doc2vec в смысле Le & Mikolov (2014). Мои тренировочные данные состоят из примерно 10 000 текстов описаний, и я обучаю свой классификатор логистической регрессии по результату ("1"/"0"). Вопрос: Как я могу найти и визуализи…
23 ноя '17 в 10:12
1
ответ
Как мне получить сходство между словом и документом в Генсиме?
Итак, я начал изучать gensim для word2vec и doc2vec, и это работает. Значения сходства на самом деле работают очень хорошо. Однако для эксперимента я хотел оптимизировать алгоритм поиска по ключевым словам, сравнивая одно слово и выясняя, насколько …
04 июл '18 в 21:18