Использование BERT для классификации по заданной длине символа или количеству слов в предложении
У меня есть набор данных заголовков, их описания и 0 или 1, которые соответствуют действительному описанию или нет. Я хочу иметь возможность классифицировать, являются ли они действительными или нет на основе BERT наряду с количеством символов / слов в описании. Как бы я это сделал?
1 ответ
Этот вопрос немного широк, но вы можете начать следующим образом:
Вы можете, вероятно, использовать Cola
процессор Bert, который является подходящим процессором для задачи двоичной классификации.
Вы можете рассматривать Названия в качестве идентификатора, так как они не должны влиять на обучение и могут однозначно идентифицировать описание.
Создайте файлы TSV в соответствии с необходимой проблемой, вы можете использовать Glue data для задачи Cola, чтобы увидеть, как данные должны быть отформатированы для bert.
Как правило, обучение и набор разработчика имеет 4 столбца, а именно: id
, class
, segment ID
, text data
и тестовый набор имеет только 2 столбца id
а также text data
,
Вы можете выполнить точную настройку, как только получите данные в требуемом формате. Вы можете использовать run_classifier.py
скрипт для тонкой настройки. Авторы документировали способ использования упомянутого скрипта для тонкой настройки здесь