Как натренировать предварительно подготовленный бинарный файл на моем собственном корпусе с помощью gensim?

Эй, ребята, у меня есть предварительно подготовленный бинарный файл, и я хочу обучить его на своем корпусе.

Подход, который я пробовал:

Я попытался извлечь txt-файл из имеющегося у меня bin-файла и использовать его в качестве файла word2vec во время загрузки, а затем обучил его на своем собственном корпусе и сохранил модель, но модель работает плохо для слов, присутствующих в предварительно подготовленный файл bin (для этого я использовал команду intersect_word2vec_format.)

Вот сценарий, который я использовал.

Каким должен быть мой подход к тому, чтобы моя модель хорошо выполняла слова из предварительно подготовленного файла и из моего корпуса?

1 ответ

Загрузите вашу модель и используйте build_vocab с update = True,

import gensim
from gensim.models import Word2Vec

model = Word2Vec.load('w2vmodel.bin')
my_corpus = ... # load your corpus as sentences here
model.build_vocab(my_corpus, update=True)
model.train(my_corpus)

Мне не очень понятно, когда intersect_word2vec_format полезно, но вы можете прочитать больше о предполагаемом случае использования здесь. Похоже, это не для обычного переобучения векторов.

Другие вопросы по тегам