Как использовать предварительные вложения BERT с моим новым набором данных?

Мой набор данных и задача НЛП сильно отличаются от большого корпуса, который авторы предварительно обучили своей модели ( https://github.com/google-research/bert), поэтому я не могу напрямую тонкая настройка. Есть ли пример кода /GitHub, который может помочь мне обучить BERT с моими собственными данными? Я ожидаю получить вложения как перчатки.

Большое спасибо!

0 ответов

Да, вы можете получить вложения BERT, как и другие вложения слов, используя extract_features.pyсценарий. У вас есть возможность выбрать количество слоев, из которых вам нужен вывод. Использование простое, вам нужно сохранить по одному предложению на строку в текстовом файле и передать его как ввод. Результатом будет файл JSONL, обеспечивающий контекстные вложения для каждого токена.

Использование скрипта с документацией доступно по адресу: https://github.com/google-research/bert.

Другие вопросы по тегам