Как создать параллельный корпус для NMT?

Question

Как создать параллельный корпус для NMT?

Я создаю хинди-английский корпус, собирая данные из Интернета.

Я собрал данные с веб-сайтов и сохранил их параллельно в двух текстовых файлах: один содержит предложения на английском языке, а другой - эквивалентные предложения на хинди.

Нормализация и токенизация применяются к текстовому файлу на английском языке с помощью Moses Tokenizer ( http://www.statmt.org/moses/?n=moses.baseline).

Нормализация и токенизация применяются к текстовому файлу на хинди с использованием библиотеки Indic NLP. ( https://anoopkunchukuttan.github.io/indic_nlp_library/)

Что еще мне нужно сделать, чтобы сделать его идеальным параллельным корпусом для людей?

Примечание: я знаю, что уже существует две корпорации.

Но я хочу создать этот новый корпус.

0

python neural-network translation machine-translation opennmt

Источник

user8981905 14 авг '18 в 20:12

0 ответов

Другие вопросы по тегам python neural-network translation machine-translation opennmt