Как использовать предварительные вложения BERT с моим новым набором данных?
Мой набор данных и задача НЛП сильно отличаются от большого корпуса, который авторы предварительно обучили своей модели ( https://github.com/google-research/bert), поэтому я не могу напрямую тонкая настройка. Есть ли пример кода /GitHub, который может помочь мне обучить BERT с моими собственными данными? Я ожидаю получить вложения как перчатки.
Большое спасибо!
0 ответов
Да, вы можете получить вложения BERT, как и другие вложения слов, используя extract_features.py
сценарий. У вас есть возможность выбрать количество слоев, из которых вам нужен вывод. Использование простое, вам нужно сохранить по одному предложению на строку в текстовом файле и передать его как ввод. Результатом будет файл JSONL, обеспечивающий контекстные вложения для каждого токена.
Использование скрипта с документацией доступно по адресу: https://github.com/google-research/bert.