Как создать параллельный корпус для NMT?
Я создаю хинди-английский корпус, собирая данные из Интернета.
Я собрал данные с веб-сайтов и сохранил их параллельно в двух текстовых файлах: один содержит предложения на английском языке, а другой - эквивалентные предложения на хинди.
Нормализация и токенизация применяются к текстовому файлу на английском языке с помощью Moses Tokenizer ( http://www.statmt.org/moses/?n=moses.baseline).
Нормализация и токенизация применяются к текстовому файлу на хинди с использованием библиотеки Indic NLP. ( https://anoopkunchukuttan.github.io/indic_nlp_library/)
Что еще мне нужно сделать, чтобы сделать его идеальным параллельным корпусом для людей?
Примечание: я знаю, что уже существует две корпорации.
Но я хочу создать этот новый корпус.