Деванагарическая обработка текста (НЛП) с чего начать

Я новичок в Devnagaric NLP. Существуют ли какие-либо группы или ресурсы, которые могли бы помочь мне начать работу с NLP на девнагарском языке (в основном на непальском или аналогичном, например, на хинди). Я хочу быть в состоянии разработать шрифты для Devanagaric, а также сделать некоторые приложения для обработки шрифтов. Если бы кто-нибудь (работающий в этой области) мог бы дать мне какой-то совет, это было бы весьма заметно. заранее спасибо

2 ответа

Я новичок в Devnagaric NLP. Существуют ли какие-либо группы или ресурсы, которые могли бы помочь мне начать работу с NLP на девнагарском языке (в основном на непальском или аналогичном, например на хинди)?

Вы можете использовать вложения, предоставленные fasttext [ https://fasttext.cc/docs/en/pretrained-vectors.html и использовать некоторые модели RNN с глубоким обучением, такие как LSTM, для классификации текста и анализа настроений.

Вы можете найти некоторые наборы данных для распознавания именованных сущностей здесь [ http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic=5]

Для обработки индийских языков, вы можете обратиться сюда [ https://github.com/anoopkunchukuttan/indic_nlp_library]

Nltk поддерживает индийский язык, для обозначения pos и задач, связанных с nlp, вы можете обратиться сюда [ http://www.nltk.org/_modules/nltk/corpus/reader/indian.html]

Есть ли какая-нибудь группа или ресурсы, которые помогли бы мне начать работу с НЛП на девнагарском языке?

Проект Bhasa Sanchar под руководством Мадана Пураскара Пустакалая создал непальский корпус. Вы можете запросить непальский корпус для некоммерческих целей по контакту, указанному в ссылке выше.

NLTK Python имеет корпус языка хинди. Вы можете импортировать его, используя

from nltk.corpus import indian

Чтобы получить представление о НЛП, основанном на Девнагари, я предлагаю вам ознакомиться с исследовательскими работами. Непальский является языком с ограниченными ресурсами, еще предстоит проделать большую работу, и может быть сложно получить содержание для этого.

Вы, вероятно, должны изучить обнаружение языка, классификацию текста, анализ настроений среди прочих (желательно на основе библиотеки POS-тегов из корпуса), чтобы понять основы.

Для второй части вопроса

Я почти уверен, что разработка шрифтов не относится к области обработки естественного языка. Вы имели в виду что-то еще?

Другие вопросы по тегам