Использование BERT для классификации по заданной длине символа или количеству слов в предложении

У меня есть набор данных заголовков, их описания и 0 или 1, которые соответствуют действительному описанию или нет. Я хочу иметь возможность классифицировать, являются ли они действительными или нет на основе BERT наряду с количеством символов / слов в описании. Как бы я это сделал?

1 ответ

Этот вопрос немного широк, но вы можете начать следующим образом:

Вы можете, вероятно, использовать Cola процессор Bert, который является подходящим процессором для задачи двоичной классификации.

Вы можете рассматривать Названия в качестве идентификатора, так как они не должны влиять на обучение и могут однозначно идентифицировать описание.

Создайте файлы TSV в соответствии с необходимой проблемой, вы можете использовать Glue data для задачи Cola, чтобы увидеть, как данные должны быть отформатированы для bert.

Как правило, обучение и набор разработчика имеет 4 столбца, а именно: id, class, segment ID, text dataи тестовый набор имеет только 2 столбца id а также text data,

Вы можете выполнить точную настройку, как только получите данные в требуемом формате. Вы можете использовать run_classifier.py скрипт для тонкой настройки. Авторы документировали способ использования упомянутого скрипта для тонкой настройки здесь

Другие вопросы по тегам