Вывод Doc2vec: получить наиболее похожие результаты для всех данных

У меня есть 120 строк текстовых (предложений) данных, чтобы сгруппировать или классифицировать их. Используя doc2vec в Gensim, я создал модель в соответствии с приведенным ниже кодом:

model = gensim.models.doc2vec.Doc2Vec(size=50, min_count=2, iter=55)
model.build_vocab(data4)
%time model.train(data4, total_examples=model.corpus_count, epochs=model.iter)

После этого кода, когда я проверил сходство, я получил только 10 строк данных

inferred_vector = model.infer_vector(data4[doc_id].words)
sims = model.docvecs.most_similar([inferred_vector], topn=10)

Но последние симы дают одинаковые 10 предложений для всех doc_id. Любой может кто-нибудь помочь мне сгруппировать предложения в разные кластеры на основе слов в предложении.

0 ответов

Другие вопросы по тегам