Обучение SRL с использованием BERT по немецкому языку с AllenNLP
Я пытаюсь обучить модель SRL для немецкого текста, переводя набор данных Ontonotes и распространяя метки из английских предложений в немецкие предложения. Когда я тренирую модель с этим набором данных, а также с аннотированным вручную набором данных, я, кажется, застрял на максимальном балле F1, равном 0,62. Я использую модель deepset/gbert-large bert для обучения со скоростью обучения 5e-5. Я обновил файл Ontonotes.py, чтобы читать файлы в формате conll, и проверил кадры srl, чтобы убедиться, что метки подбираются правильно. Есть ли что-то еще, что я упускаю, о чем мне нужно позаботиться, пытаясь обучить модель на другом языке, или это просто низкое качество данных, которое может быть причиной проблемы.
Я также попытался вручную аннотировать предложения на немецком языке для задачи SRL, и даже для таких высококачественных данных модель, похоже, не работает так, как работает эквивалентная модель BERT для английского языка. Хотя качество набора данных, созданного путем перевода и переноса меток, может быть низким, объясняет ли это разницу в 0,24 балла F1?