Тонкая настройка предварительно обученных word2vec Google News

Question

Тонкая настройка предварительно обученных word2vec Google News

В настоящее время я использую модель Word2Vec, обученную в Корпорации Новостей Google ( отсюда). Поскольку она обучается только на новостях до 2013 года, мне нужно обновить векторы, а также добавить новые слова в словарь на основе новостей, появившихся после 2013 года.

Предположим, у меня есть новый свод новостей после 2013 года. Могу ли я перенастроить или откорректировать или обновить модель Google News Word2Vec? Можно ли это сделать с помощью Gensim? Можно ли это сделать с помощью FastText?

4

python gensim word2vec fasttext google-news

Источник

user386384 15 сен '17 в 16:48

1 ответ

Другие вопросы по тегам python gensim word2vec fasttext google-news

user7852644 18 июн '18 в 12:58 2018-06-18 12:58 · Answer 1 · 2018-06-18 12:58

Вы можете взглянуть на это: https://github.com/facebookresearch/fastText/pull/423

Он делает то же самое, что и вы: вот что говорит ссылка:

Обучение модели классификации или слово-векторной модели постепенно.

./fasttext [контролируемый | скипграмма | cbow] -input train.data -inputModel training.model.bin -output с повторным обучением [другие параметры] -incr

-incr расшифровывается как дополнительное обучение.

При обучении встраиванию слов можно было делать это с нуля со всеми данными за раз или только с новыми данными. Для классификации его можно обучить с нуля с помощью предварительно обученного встраивания слов со всеми данными или только нового без изменения встраивания слов.

Инкрементальное обучение фактически означает, что мы завершили модель обучения с данными, которые мы получили ранее, и переобучаем модель новыми данными, которые мы получаем, а не с нуля.

user11154976 18 апр '19 в 17:24 2019-04-18 17:24 · Answer 2 · 2019-04-18 17:24

Да, ты можешь. Я работал над этим слишком недавно.

Word2vec Ссылка
Справочник GloVe

Изменить: GloVe накладные расходы на вычисления и хранение co-occurence матрица в памяти во время тренировки. Повышение квалификации word2vec сравнительно легко

0

Источник

user11154976 18 апр '19 в 17:24