Как натренировать предварительно подготовленный бинарный файл на моем собственном корпусе с помощью gensim?
Эй, ребята, у меня есть предварительно подготовленный бинарный файл, и я хочу обучить его на своем корпусе.
Подход, который я пробовал:
Я попытался извлечь txt-файл из имеющегося у меня bin-файла и использовать его в качестве файла word2vec во время загрузки, а затем обучил его на своем собственном корпусе и сохранил модель, но модель работает плохо для слов, присутствующих в предварительно подготовленный файл bin (для этого я использовал команду intersect_word2vec_format.)
Вот сценарий, который я использовал.
Каким должен быть мой подход к тому, чтобы моя модель хорошо выполняла слова из предварительно подготовленного файла и из моего корпуса?
1 ответ
Загрузите вашу модель и используйте build_vocab
с update = True
,
import gensim
from gensim.models import Word2Vec
model = Word2Vec.load('w2vmodel.bin')
my_corpus = ... # load your corpus as sentences here
model.build_vocab(my_corpus, update=True)
model.train(my_corpus)
Мне не очень понятно, когда intersect_word2vec_format
полезно, но вы можете прочитать больше о предполагаемом случае использования здесь. Похоже, это не для обычного переобучения векторов.