The Natural Language Toolkit - это библиотека Python для компьютерной лингвистики.

Natural л anguage Т оолК он (NLTK) представляет собой библиотеку Python для компьютерной лингвистики. В настоящее время он доступен для Python версий 2.7 или 3.2+.

NLTK включает в себя большое количество общепринятых инструментов обработки естественного языка, включая токенизатор, блокировку, теггер части речи (POS), стеммер, лемматизатор и различные классификаторы, такие как наивный байесовский алгоритм и дерево решений. В дополнение к этим инструментам в NLTK встроено множество общих корпусов, включая Brown Corpus, Reuters и WordNet. Коллекция корпусов NLTK также включает несколько корпусов не на английском языке на португальском, польском и испанском языках.

Книга Стивена Берда, Эвана Кляйна и Эдварда Лопера " Обработка естественного языка с помощью Python - Анализ текста с помощью инструментария естественного языка" находится в свободном доступе в Интернете по лицензии Creative Commons Attribution Noncommercial No Derivative Works 3.0 US. Цитируемая статья NLTK: the natural language ToolKit была впервые опубликована в 2003 году, а затем снова в 2006 году, чтобы исследователи выразили признательность за вклад в текущие исследования в области компьютерной лингвистики.

NLTK в настоящее время распространяется под лицензией Apache версии 2.0.