Тонкая настройка предварительно обученных word2vec Google News

В настоящее время я использую модель Word2Vec, обученную в Корпорации Новостей Google ( отсюда). Поскольку она обучается только на новостях до 2013 года, мне нужно обновить векторы, а также добавить новые слова в словарь на основе новостей, появившихся после 2013 года.

Предположим, у меня есть новый свод новостей после 2013 года. Могу ли я перенастроить или откорректировать или обновить модель Google News Word2Vec? Можно ли это сделать с помощью Gensim? Можно ли это сделать с помощью FastText?

1 ответ

Вы можете взглянуть на это: https://github.com/facebookresearch/fastText/pull/423

Он делает то же самое, что и вы: вот что говорит ссылка:

Обучение модели классификации или слово-векторной модели постепенно.

./fasttext [контролируемый | скипграмма | cbow] -input train.data -inputModel training.model.bin -output с повторным обучением [другие параметры] -incr

-incr расшифровывается как дополнительное обучение.

При обучении встраиванию слов можно было делать это с нуля со всеми данными за раз или только с новыми данными. Для классификации его можно обучить с нуля с помощью предварительно обученного встраивания слов со всеми данными или только нового без изменения встраивания слов.

Инкрементальное обучение фактически означает, что мы завершили модель обучения с данными, которые мы получили ранее, и переобучаем модель новыми данными, которые мы получаем, а не с нуля.

Да, ты можешь. Я работал над этим слишком недавно.

Изменить: GloVe накладные расходы на вычисления и хранение co-occurence матрица в памяти во время тренировки. Повышение квалификации word2vec сравнительно легко

Другие вопросы по тегам