Описание тега gensim

Gensim is a free Python framework designed to automatically extract semantic topics from documents, as efficiently (computer-wise) and painlessly (human-wise) as possible.
2 ответа

Не английское вложение слова из английского вложения слова

Как я могу генерировать неанглийское (французское, испанское, итальянское) вложение слов из вложения английских слов? Каковы наилучшие способы создания высококачественного встраивания слов для неанглийских слов. Слова могут включать (samsung-galaxy-…
19 сен '18 в 09:34
0 ответов

Оценка динамической тематической модели (gensim.models.ldaseqmodel)

Я создал модель темы с пакетом gensim и модуль gensim.moduls.ldaseqmodel, Можно ли оценивать модель с недоумением каждый раз? С помощью этой функции я хочу выбрать правильную тему для моего моделирования
06 июн '18 в 08:55
1 ответ

Понимание LDA Преобразованный Корпус в Gensim

Я попытался исследовать содержимое корпуса BOW и LDA[BOW Corpus] (преобразованный моделью LDA, обученной на этом корпусе, скажем, с 35 темами), и обнаружил следующий вывод: DOC 1 : [(1522, 1), (2028, 1), (2082, 1), (6202, 1)] LDA 1 : [(29, 0.8057142…
07 май '14 в 05:48
0 ответов

pyLDAvis: загрузить визуализацию json с диска и показать визуализацию

Я новичок в Python и pyLDAvis. Я был в состоянии экспортировать визуализацию как HTML и данные как JSON. Однако я хотел знать, есть ли способ загрузить данные с диска и показать визуализацию. Я не хочу запускать модель каждый раз, чтобы подготовить …
04 сен '18 в 20:36
0 ответов

Как отображать тематические слова, используя sklearn api в gensim

Я пытаюсь выполнить LDATransformer, используя gensim api, и затем я хочу получить тематические слова, используя только следующий код: from gensim.sklearn_api.ldamodel import LdaTransformer print("Loading docs for lda input...") docs = get_lda_input_…
15 ноя '18 в 13:50
1 ответ

Неэффективность тематического моделирования для кластеризации текста

Я попытался сделать кластеризацию текста с использованием LDA, но это не дает мне четких кластеров. Ниже мой код #Import libraries from gensim import corpora, models import pandas as pd from gensim.parsing.preprocessing import STOPWORDS from itertoo…
20 мар '18 в 09:17
2 ответа

Вложенный цикл над списком и динамически создавать переменные

У меня есть список предложений, и я хочу выполнить какое-то действие над двумя предложениями каждый раз, но не для всех предложений. например: list= ["aaaaa","bbbbb","ccccc","ddddd","eeeee"] similarity_a-d = sim("aaaaa","ddddd") similarity_a-e = sim…
05 ноя '18 в 17:38
0 ответов

Создать словарь Gensim из Term-Document-Matrix

Я пытаюсь создать словарь для gensim, чтобы оценить мои модели с согласованностью темы. Следующий код не предоставляет массив токенов Unicode, а содержит одну строку: with open(TDM_dateipfad, newline='') as csvfile: reader = csv.reader(csvfile, deli…
29 май '18 в 13:49
1 ответ

Получение матрицы расстояний и матрицы характеристик из модели word2vec

Я сгенерировал модель word2vec, используя gensim для огромного корпуса, и мне нужно сгруппировать словари, используя k означает кластеризацию для того, что мне нужно: матрица косинусного расстояния (слово в слово, поэтому размер матрицы число_фо_сло…
24 июл '17 в 11:56
1 ответ

Как повернуть word2vec на другое word2vec?

Я тренирую несколько моделей word2vec с Gensim. Каждый из word2vec будет иметь тот же параметр и размерность, но обучен с немного различными данными. Затем я хочу сравнить, как изменение данных повлияло на векторное представление некоторых слов. Но …
13 июл '18 в 17:35
1 ответ

Как doc2vec.infer_vector сочетается между словами?

Я обучил модель doc2vec, используя train (..) с настройками по умолчанию. Это сработало, но теперь мне интересно, как infer_vector объединяет входные слова, это просто среднее значение отдельных векторов слов? model.random.seed(0) model.infer_vector…
24 май '17 в 16:24
1 ответ

Получил EOFError при загрузке модели doc2vec

Я не смог загрузить модель doc2vec на свой компьютер, и я получил следующую ошибку. Но когда я загружаю эту модель на другие компьютеры, я могу использовать эту модель. Поэтому я знаю, что модель была построена правильно. что я должен делать. Это ко…
01 мар '17 в 18:34
1 ответ

Загрузить gensim Word2Vec, вычисленный в Python 2, в Python 3

У меня есть модель Word2Vec Gensim, вычисленная в Python 2, например: from gensim.models import Word2Vec from gensim.models.word2vec import LineSentence model = Word2Vec(LineSentence('enwiki.txt'), size=100, window=5, min_count=5, workers=15) model.…
08 ноя '15 в 16:20
1 ответ

AttributeError: у объекта "Tree" нет атрибута "words". Ошибка Doc2Vec

Я пытаюсь обучить встраиванию слова Doc2Vec в предварительно обработанные абзацы. Я удалил пунктуацию и провел токенизацию, pos-тег и chunking. import nltk from nltk import word_tokenize, pos_tag, ne_chunk from gensim.models.doc2vec import Doc2Vec n…
20 июл '18 в 08:28
1 ответ

Передача обучения gensim Word2vec (из не-gensim-модели)

У меня есть набор встраиваний, обученных с помощью нейронной сети, которая не имеет ничего общего с gensim's word2vec. Я хочу использовать эти вложения в качестве начальных весов в gensim.Word2vec, Теперь я вижу, что могу model.load(SOME_MODEL) и за…
24 дек '17 в 09:58
2 ответа

Отрицательные значения: оцените Gensim LDA с согласованностью темы

В настоящее время я пытаюсь оценить мои тематические модели с помощью gensim topiccoherencemodel: from gensim.models.coherencemodel import CoherenceModel cm_u_mass = CoherenceModel(model = model1, corpus = corpus1, coherence = 'u_mass') coherence_u_…
30 май '18 в 14:34
2 ответа

Проблемы с запуском gensim Word2Vec

Я пытаюсь обучить встраиванию слов (word2vec) в свой собственный набор данных с помощью библиотеки gensim. model = Word2Vec(sentences=alp[:20],size=100, window=6, min_count=5) где alp - список, содержащий токены отдельных предложений в моем корпусе.…
12 мар '18 в 06:34
1 ответ

gensim doc2vec дает неопределенный результат

Я использую модель Doc2Vec в библиотеке Python Gensim. Каждый раз, когда я передаю модели одни и те же данные предложений и устанавливаю параметр:seed для Doc2Vec в фиксированное число, модель дает разные векторы после построения модели. Для целей т…
20 дек '17 в 08:47
0 ответов

Gensim рабочий поток застрял

Я тренирую вложения документов на ~20 миллионов предложений и использую параллельную обработку в gensim. Я создаю свою модель и тренируюсь с помощью следующего кода class read_corpus(object): def __init__(self, fname, n): self.fname = fname self.n =…
29 апр '18 в 17:42
1 ответ

Получить иерархию темы от Gensim

Gensim дает нам иерархию тем? Я пишу код для расчета темы некоторых документов, вывод - слова каждой темы. Но я хочу иерархию тем. это мой код: https://gist.github.com/anonymous/2e3b2f3866e5029c55c3 и это вывод: 2014-06-16 13:02:22,540 : INFO : addi…
16 июн '14 в 11:06