Что такое чанкер в обработке естественного языка?
Кто-нибудь знает, что такое чанкер в контексте обработки текста и для чего он используется?
3 ответа
Согласно этим слайдам, чанкинг является альтернативой синтаксическому анализу, который обеспечивает частичную синтаксическую структуру предложения с ограниченной глубиной дерева, в отличие от полной при синтаксическом анализе.
Он более ограничен, чем полный синтаксический анализ, но достаточен для извлечения или игнорирования информации и, таким образом, используется много раз, поскольку он быстрее и надежнее синтаксического анализа.
Гораздо больше информации доступно на слайдах.
Дополнительные ссылки:
Я лично не согласен с другими ответами, но Юрафски и Мартин дают немного другое определение. Для них чанкинг - это тип неглубокого разбора, в котором нет рекурсивных фраз.
Одним из примеров, которые они приводят, является фраза "полет из Денвера". Один синтаксический анализ, который не будет генерироваться чанкером, - это "[NP the flight [PP from [NP Denver]]]", потому что это подразумевает грамматику с NP-рекурсивностью.
Это очень упрощенный тип анализа, называемый мелким анализом. В проекте OpenNLP имеется модуль chunker, и вы можете посмотреть его документацию для примера работы блока chunker в действии.