Почему большинство символов unk при оценке во время тренировки?
Я занимаюсь пошаговым обучением своей Hi-En NMT-системы, но даже после 300 тыс. Шагов большинство переводов идут с символами unk. Как преодолеть эту ситуацию, чтобы я получил надлежащие переводы.
Я хочу убедиться, что шаги, которые я буду выполнять, чтобы начать дополнительное обучение, правильные -
Генерирование данных предварительной обработки (не вокаба) с использованием сценария оболочки wmt из репозитория nmt.
Словарь, который будет использоваться из предыдущих предварительно обработанных данных.
-Копирование контрольной точки, translate.ckpt-340000.data-00000-of-00001, translate.ckpt-340000.index, translate.ckpt-340000.meta в новый out_dir
-Использование набора dev/test из предыдущих предварительно обработанных данных -Модификация "num_train_steps" как 350000 в файле json.(Wmt16_gnmt_4_layer.json)
Пожалуйста, дайте мне знать, если вышеупомянутые шаги могут быть использованы для дополнительного обучения для нового корпуса.