Деванагарическая обработка текста (НЛП) с чего начать
Я новичок в Devnagaric NLP. Существуют ли какие-либо группы или ресурсы, которые могли бы помочь мне начать работу с NLP на девнагарском языке (в основном на непальском или аналогичном, например, на хинди). Я хочу быть в состоянии разработать шрифты для Devanagaric, а также сделать некоторые приложения для обработки шрифтов. Если бы кто-нибудь (работающий в этой области) мог бы дать мне какой-то совет, это было бы весьма заметно. заранее спасибо
2 ответа
Я новичок в Devnagaric NLP. Существуют ли какие-либо группы или ресурсы, которые могли бы помочь мне начать работу с NLP на девнагарском языке (в основном на непальском или аналогичном, например на хинди)?
Вы можете использовать вложения, предоставленные fasttext [ https://fasttext.cc/docs/en/pretrained-vectors.html и использовать некоторые модели RNN с глубоким обучением, такие как LSTM, для классификации текста и анализа настроений.
Вы можете найти некоторые наборы данных для распознавания именованных сущностей здесь [ http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic=5]
Для обработки индийских языков, вы можете обратиться сюда [ https://github.com/anoopkunchukuttan/indic_nlp_library]
Nltk поддерживает индийский язык, для обозначения pos и задач, связанных с nlp, вы можете обратиться сюда [ http://www.nltk.org/_modules/nltk/corpus/reader/indian.html]
Есть ли какая-нибудь группа или ресурсы, которые помогли бы мне начать работу с НЛП на девнагарском языке?
Проект Bhasa Sanchar под руководством Мадана Пураскара Пустакалая создал непальский корпус. Вы можете запросить непальский корпус для некоммерческих целей по контакту, указанному в ссылке выше.
NLTK Python имеет корпус языка хинди. Вы можете импортировать его, используя
from nltk.corpus import indian
Чтобы получить представление о НЛП, основанном на Девнагари, я предлагаю вам ознакомиться с исследовательскими работами. Непальский является языком с ограниченными ресурсами, еще предстоит проделать большую работу, и может быть сложно получить содержание для этого.
Вы, вероятно, должны изучить обнаружение языка, классификацию текста, анализ настроений среди прочих (желательно на основе библиотеки POS-тегов из корпуса), чтобы понять основы.
Для второй части вопроса
Я почти уверен, что разработка шрифтов не относится к области обработки естественного языка. Вы имели в виду что-то еще?