BERT работает хуже, чем word2vec
Я пытаюсь использовать BERT для ранжирования документов. Моя задача довольно проста. Я должен сделать рейтинг сходства для входного документа. Единственная проблема здесь в том, что у меня нет ярлыков - так что это скорее качественный анализ.
Я собираюсь попробовать несколько методов представления документов - в основном word2vec, para2vec и BERT.
Для BERT я наткнулся на эту библиотеку. Я точно настроил модель с небольшим корпусом, около 150000 документов. Я запускал его в течение 5 эпох, с размером пакета 16 и максимальной длиной seq 128. Однако, если я сравниваю производительность представления Берта с представлениями word2vec, по какой-то причине word2vec работает лучше для меня прямо сейчас. Для BERT я использовал последние четыре слоя для получения представления.
Я не слишком уверен, почему хорошо настроенная модель не работает. Я прочитал эту статью, а также другую ссылку, в которой говорилось, что BERT хорошо работает при точной настройке для задачи классификации. Однако, так как у меня нет этикеток, я оштрафовал настроил это, как это делается на бумаге - без присмотра.
Кроме того, мои документы сильно различаются по длине. Поэтому я отправляю им приговор прямо сейчас. В конце концов, мне все равно приходится усреднять вложения слова, чтобы получить вложение предложения. Есть идеи по лучшему методу? Я также читал здесь - что существуют разные способы объединения вложений слов для получения фиксированных вложений. Хотите знать, если есть сравнение, какая техника объединения работает лучше?
Будем весьма благодарны за любую помощь в обучении BERT лучше или лучше метод пулирования!
Спасибо,
0 ответов
Вы можете проверить это сообщение в блоге:
У BERT даже есть специальный токен [CLS], встраивание вывода которого используется для задач классификации, но все же оказывается плохим встраиванием входной последовательности для других задач. [Реймерс и Гуревич, 2019]
Sentence-BERT, представленная в [Reimers & Gurevych, 2019] и сопровождаемая реализацией Python, направлена на адаптацию архитектуры BERT с использованием сиамских и триплетных сетевых структур для получения семантически значимых встраиваний предложений, которые можно сравнивать с помощью косинус-подобия.