Возможные улучшения модели DistilBERT / BERT

Я реализовал обычную версию DistilBERT, которая дает довольно плохую оценку F1 для моей задачи NER. Это можно увидеть ниже. Но я не могу найти никаких возможных улучшений этой ванильной версии ни в одной газете или на веб-сайте. Есть ли полезный способ добавить больше слоев? Есть ли смысл, например, добавлять слой LSTM?

      encoder = TFDistilBertForTokenClassification.from_pretrained('distilbert-base-uncased', 
num_labels=n_tags)

# Input layers
input_ids_layer = Input(shape=(180, ), dtype=np.int32)
attention_mask_layer = Input(shape=(180, ), dtype=np.int32)

# Bert layer, return first output
embedding = encoder(
    input_ids_layer, attention_mask=attention_mask_layer
)[0]

dropout = Dropout(0.1)(embedding)
dense_output = Dense(n_tags, activation='softmax') (lstm)

model = Model(inputs=[input_ids_layer, attention_mask_layer], outputs=dense_output)

0 ответов

Другие вопросы по тегам