Большой корпус текста на хинди латиницей
Где я могу найти такой корпус? Мне нужно это, чтобы построить детектор языка между хинди и английским языком на уровне токенов.
Например, что-то вроде хинди Википедии в латинском алфавите было бы весьма полезно. Или короткие рассказы, сообщения в социальных сетях или твиты, или блоги? Есть идеи?
Насколько я могу судить, существующие механизмы транслитерации не так хороши. Если есть один, который хорош, рассмотрим использование этого тоже.
1 ответ
Вы можете попробовать hindibible.org, просто используйте wget для загрузки их веб-сайта, и вы получите всю библию в транслитерированном хинди. Можете ли вы помочь мне прочитать их текст в Devnagri? Их веб-сайт отображает текст на хинди, но HTML-файлы, которые я скачал, находятся на транслитерированном английском языке. И я хочу иметь возможность читать эти транслитерированные HTML-файлы в devnagri на случай, если веб-сайт решит завершить работу своих серверов.
Google Translate обеспечивает результат с транслитерацией при поиске, выбрав опцию "текст" на https://translate.google.co.in/.
Но есть загвоздка. Он имеет ограничение на количество символов 5k. Удивительно, но Google не предоставляет эту функцию при переводе где-либо еще. (google docs, gmail и т. д.) Сообщите мне, смогли ли вы найти более эффективное и надежное решение вашей проблемы.