Возможные улучшения модели DistilBERT / BERT
Я реализовал обычную версию DistilBERT, которая дает довольно плохую оценку F1 для моей задачи NER. Это можно увидеть ниже. Но я не могу найти никаких возможных улучшений этой ванильной версии ни в одной газете или на веб-сайте. Есть ли полезный способ добавить больше слоев? Есть ли смысл, например, добавлять слой LSTM?
encoder = TFDistilBertForTokenClassification.from_pretrained('distilbert-base-uncased',
num_labels=n_tags)
# Input layers
input_ids_layer = Input(shape=(180, ), dtype=np.int32)
attention_mask_layer = Input(shape=(180, ), dtype=np.int32)
# Bert layer, return first output
embedding = encoder(
input_ids_layer, attention_mask=attention_mask_layer
)[0]
dropout = Dropout(0.1)(embedding)
dense_output = Dense(n_tags, activation='softmax') (lstm)
model = Model(inputs=[input_ids_layer, attention_mask_layer], outputs=dense_output)