Команда gensim doc2vec "intersect_word2vec_format"

Просто прочитав команды doc2vec на странице gensim.

Мне любопытно, команда "intersect_word2vec_format" .

Насколько я понимаю, эта команда позволяет мне вводить векторные значения из предварительно обученной модели word2vec в мою модель doc2vec, а затем обучать мою модель doc2vec, используя предварительно обученные значения word2vec, а не генерировать значения слов из моего корпуса документов. В результате я получаю более точную модель doc2vec, потому что я использую предварительно обученные значения w2v, которые были сгенерированы из гораздо большего массива данных по сравнению с моим относительно небольшим корпусом документов.

Правильно ли я понимаю эту команду или нет?;-)

1 ответ

Решение

Да, intersect_word2vec_format() позволит вам переносить векторы из внешнего файла в модель, в которой уже был инициализирован собственный словарь (как будто build_vocab()). То есть он будет загружать только те векторы, для которых уже есть слова в местном словаре.

Кроме того, по умолчанию он будет блокировать эти загруженные векторы от любой дальнейшей корректировки во время последующего обучения, хотя другие слова в ранее существующем словаре могут продолжать обновляться. (Вы можете изменить это поведение, указав lockf=1.0 значение вместо значения по умолчанию 0.0.)

Тем не менее, это лучше всего рассматривать как экспериментальную функцию, и то, какие преимущества она может предложить, будет зависеть от многих вещей, специфичных для вашей установки.

Режим PV-DBOW Doc2Vec, соответствующий dm=0 Параметр часто является самым быстродействующим по скорости и качеству векторов документов и вообще не использует и не обучает векторы слов, поэтому любая предварительная загрузка векторов не будет иметь никакого эффекта.

Режим PV-DM, включенный по умолчанию dm=1 настройка, тренирует любые слова-векторы, которые ему нужны, одновременно с обучением дока-вектора. (То есть не существует отдельной фазы, где сначала создаются слова-векторы, и, следовательно, для того же iter проходы, обучение PV-DM занимает одинаковое количество времени, независимо от того, начинаются ли векторы слов со случайными значениями по умолчанию или предварительно загружаются из других мест.) Предварительный заполнение модели некоторыми векторами слов из других мест может помочь или ухудшить конечное качество - Вероятно, это будет зависеть от особенностей вашего корпуса, мета-параметров и целей, а также от того, представляют ли эти внешние векторы значения слов в синхронизации с текущим корпусом / целью.

Другие вопросы по тегам