Тонкая настройка предварительно обученных word2vec Google News
В настоящее время я использую модель Word2Vec, обученную в Корпорации Новостей Google ( отсюда). Поскольку она обучается только на новостях до 2013 года, мне нужно обновить векторы, а также добавить новые слова в словарь на основе новостей, появившихся после 2013 года.
Предположим, у меня есть новый свод новостей после 2013 года. Могу ли я перенастроить или откорректировать или обновить модель Google News Word2Vec? Можно ли это сделать с помощью Gensim? Можно ли это сделать с помощью FastText?
1 ответ
Вы можете взглянуть на это: https://github.com/facebookresearch/fastText/pull/423
Он делает то же самое, что и вы: вот что говорит ссылка:
Обучение модели классификации или слово-векторной модели постепенно.
./fasttext [контролируемый | скипграмма | cbow] -input train.data -inputModel training.model.bin -output с повторным обучением [другие параметры] -incr
-incr расшифровывается как дополнительное обучение.
При обучении встраиванию слов можно было делать это с нуля со всеми данными за раз или только с новыми данными. Для классификации его можно обучить с нуля с помощью предварительно обученного встраивания слов со всеми данными или только нового без изменения встраивания слов.
Инкрементальное обучение фактически означает, что мы завершили модель обучения с данными, которые мы получили ранее, и переобучаем модель новыми данными, которые мы получаем, а не с нуля.
Да, ты можешь. Я работал над этим слишком недавно.
- Word2vec Ссылка
- Справочник GloVe
Изменить: GloVe накладные расходы на вычисления и хранение co-occurence
матрица в памяти во время тренировки. Повышение квалификации word2vec
сравнительно легко