Доступные языки NLTK для токенизации слов и предложений

Question

Доступные языки NLTK для токенизации слов и предложений

Мне нужно понять, для каких языков возможна токенизация в NLTK. Я думаю, что мне нужно установить язык следующим образом:

      import nltk.data
lang = "WHATEVER_LANGUAGE"
tokenizer = nltk.data.load('nltk:tokenizers/punkt/'+lang+'.pickle')
text = "something in some specified whatever language"
tokenizer.tokenize(text)

Мне нужно понять, для каких языков я могу это использовать, но я не смог найти никакой информации в документации nltk.

0

nlp nltk multilingual tokenize nltk-book

Источник

31 янв '22 в 20:17

1 ответ

Другие вопросы по тегам nlp nltk multilingual tokenize nltk-book

user11551168 29 сен '22 в 19:32 2022-09-29 19:32 · Answer 1 · 2022-09-29 19:32

Вы можете проверить этот комментарий здесь по аналогичному вопросу: /questions/7734664/kakie-yazyiki-podderzhivayutsya-dlya-nltkwordtokenize-i-nltkpostag/61462514#61462514

      The list of the languages supported by the NLTK tokenizer is as follows:

'czech'
'danish'
'dutch'
'english'
'estonian'
'finnish'
'french'
'german'
'greek'
'italian'
'norwegian'
'polish'
'portuguese'
'russian'
'slovene',
'spanish'
'swedish'
'turkish'
It corresponds to the pickles stored in C:\Users\XXX\AppData\Roaming\nltk_data\tokenizers\punkt (in Windows). This is what you enter with the key 'language' when tokenizing, e.g.

nltk.word_tokenize(text, language='italian')