Обработка естественного языка (НЛП)

С развитием технологий индустрия движется к автоматизации и интеллектуальности. В этом отношении искусственный интеллект и машинное обучение сыграли важную роль. Обработка естественного языка (NLP) - это область компьютерных наук и лингвистики, которая фокусируется на методах обработки естественных языков. Итак, какой из них более надежен и эффективен в обработке естественного языка: конечный автомат [FSM] или автоматические выключатели?

1 ответ

Несмотря на то, что существует множество методов НЛП, самым современным способом является использование глубокого обучения. Многие значительные улучшения показаны в НЛП с использованием методов глубокого обучения. Это произошло из-за огромной вычислительной мощности, доступной по низкой цене. Если вы хотите ознакомиться с передовыми методами, используемыми в области НЛП или в любой другой области исследований, перейдите в Google Scholar (https://scholar.google.com/).

Кажется, что реальный вопрос, который вы хотите задать: "Каковы некоторые эффективные методы обработки естественного языка?" Но я сначала рассмотрю ваш вопрос.

Прежде всего, ни FSA (конечные автоматы), ни PDA (Push Down Automata) не являются достаточными методами для моделирования языка. FSA может обрабатывать обычные языки. Однако они не могут даже ответить на вопрос, является ли слово палиндромом. КПК немного мощнее и могут отвечать на такие вопросы. Машины Тьюринга дают универсальные вычисления и полезны для написания программ произвольной сложности.

Теперь, чтобы начать преодолевать этот разрыв. Естественные языки не являются обычными языками. Таким образом, они не могут быть обработаны FSA. Некоторые контекстно-свободные грамматики, такие как грамматики LR(k), обрабатываются КПК, однако естественный человеческий язык не является контекстно-свободным. В качестве примера. Следующие три утверждения. "Джилл поехала в продуктовый магазин, чтобы встретиться со своей подругой Салли, прежде чем она подобрала своих детей. Салли купила три коробки с хлопьями. Затем она поехала в школу". Хотя это плохая грамматика, она "естественна" в том смысле, что они являются высказываниями, которые делают люди, и они обычно разбираются другими людьми. В предшествующем местеимении "Она" в третьем предложении явно упоминается Джилл, поскольку она имеет детей. Тем не менее, это неоднозначно, и мы должны сделать вывод об этой ассоциации.

Степень неоднозначности контекста в естественном человеческом языке делает невозможным детерминистский анализ. Вместо этого мы обращаемся к областям статистики и теории принятия решений, чтобы сделать выводы о максимально вероятной модели коммуникации.

Локальность, но недетерминированность в речи и письме - это одна из вещей, которые делают применение методов машинного обучения, таких как использование глубоких рекуррентных нейронных сетей, чрезвычайно эффективными по сравнению с их классическими аналогами, основанными на правилах.

Хотя термин "нейронная сеть" несколько ошибочен, поскольку в конечном итоге человеческий мозг гораздо, намного сложнее, чем эти элементарные модели с неврологической точки зрения, общее обучение с помощью приближенного вывода якобы близко к реальности. Мы могли бы лучше назвать эти методы "Дифференцируемыми вычислениями", но это отступление для другого времени.

В итоге. Ответ на ваш вопрос, который вы на самом деле задали, заключается в том, что КПК будут производить лучшие модели, чем FSA, но оба они будут абсолютно бесполезными по сравнению даже с элементарными статистическими методами.

Если вам интересно узнать о НЛП, я бы порекомендовал курс по машинному обучению и продолжение глубокого обучения.

У Эндрю Нг есть хорошая серия курсов, предназначенных для начинающих. После этого я продолжил курс Sirajs по глубокому обучению в Tensorflow.

Другие вопросы по тегам