Значение альфа в моделях gensim вложения слов (Word2Vec и FastText)?
Я просто хочу узнать влияние значения альфа в генсим word2vec
а также fasttext
модели вложения слов? Я знаю, что альфа это initial learning rate
и его значение по умолчанию 0.075
Форма Радим блог.
Что если я изменю это значение на чуть более высокое, то есть 0,5 или 0,75? Каков будет его эффект? Разрешено ли менять то же самое? Однако я изменил это значение на 0,5 и поэкспериментировал с данными большого размера с D = 200, window = 15, min_count = 5, iter = 10, worker = 4, и результаты в значительной степени значимы для модели word2vec. Однако, используя модель быстрого текста, результаты разбиты по битам, что означает менее связанные и непредсказуемые оценки высокого и низкого сходства.
Почему этот неточный результат для одних и тех же данных с двумя популярными моделями с разной точностью? Имеет ли значение alpha
играет такую важную роль при построении модели?
Любое предложение приветствуется.
1 ответ
Начальный по умолчанию alpha
является 0.025
в реализации Word2Vec от gensim.
В алгоритме стохастического градиентного спуска для корректировки модели эффективный alpha
влияет на то, насколько сильна коррекция модели после оценки каждого учебного примера, и будет линейно уменьшаться от ее начального значения (alpha
) до крошечного конечного значения (min_alpha
) в течение всего обучения.
Большинству пользователей не нужно настраивать эти параметры или они могут их немного отрегулировать после того, как у них есть надежный повторяемый способ оценки того, улучшает ли изменение их модель в их конечных задачах. (Я видел начальные значения 0.05
или реже 0.1
, но никогда не выше, чем вы сообщили 0.5
.)