Как настроить BERT Base (модель без корпуса) для создания вложений?
В Интернете я нашел только примеры задач классификации, но в моей задаче ярлыка нет (у меня есть только набор твитов). Моя задача заключается в следующем: сгенерировать вложения Word с помощью BERT, теперь используйте эти вложения Word в следующей задаче. Моя цель: я хочу настроить BERT для улучшения встраивания слов. Как это сделать?
1 ответ
Вы видите все примеры классификации для BERT, потому что это в основном модель классификации текста. Однако существует интерфейс BertGeneration , предоставляемый Huggingface, который можно использовать для развертывания BERT в качестве модели генерации последовательности.
Если вы можете это сделать, то затем вы можете попытаться точно настроить BERT как автоэнкодер (используя тот же текст в качестве ввода и вывода), это не будет автоэнкодером в строгом смысле из-за маскировки, но он должен решить вашу задачу. Наконец, вы можете использовать часть кодировщика (полностью или выборочно) для обучения последующей задачи.