Как создать параллельный корпус для NMT?

Я создаю хинди-английский корпус, собирая данные из Интернета.

Я собрал данные с веб-сайтов и сохранил их параллельно в двух текстовых файлах: один содержит предложения на английском языке, а другой - эквивалентные предложения на хинди.

Нормализация и токенизация применяются к текстовому файлу на английском языке с помощью Moses Tokenizer ( http://www.statmt.org/moses/?n=moses.baseline).

Нормализация и токенизация применяются к текстовому файлу на хинди с использованием библиотеки Indic NLP. ( https://anoopkunchukuttan.github.io/indic_nlp_library/)

Что еще мне нужно сделать, чтобы сделать его идеальным параллельным корпусом для людей?

Примечание: я знаю, что уже существует две корпорации.

  1. http://www.cfilt.iitb.ac.in/iitb_parallel/
  2. https://ufal.mff.cuni.cz/hindencorp

Но я хочу создать этот новый корпус.

0 ответов

Другие вопросы по тегам