Что из перечисленного будет лучшим набором данных для обучения и настройки Моисея?
Я пытаюсь создать систему перевода с тамильского на английский, используя Моисея. https://github.com/joshua-decoder/indian-parallel-corpora/tree/master/ta-en - мой источник данных для параллельного корпуса. Файлы dict имеют длину около 70 тыс. Строк, остальные находятся в диапазоне 2-3 тыс., А обучающие файлы длиной около 30 тыс. Было бы полезно, если бы кто-то намекнул, что из следующего является лучшим выбором для обучения и настройки?
В настоящее время я использую учебные файлы для обучения и тестовые файлы для настройки. Есть ли лучшая комбинация?
1 ответ
Размер данных настройки, как правило, намного меньше данных тренировки. Я бы посоветовал вам объединить имеющиеся у вас данные в один корпус, а затем взять около 1000 предложений от этой корпорации для настройки и, возможно, 3000 для разработки / тестирования.