NLTK Perceptron Tagger - Что он распознает как FW (иностранное слово)?
Относительно новичок в NLP и работает с тегами предложений, которые содержат иностранные слова, с помощью PerceptronTagger (в Python) NLTK - но он продолжает помечать маркированное иностранное слово позицией в синтаксисе, а не как "FW".
Должно ли все предложение быть написано на языке (с загруженным соответствующим языковым языком), чтобы тег 'FW' работал с документацией NLTK? Есть ли способ восприятия иностранного слова в английском предложении?
На оборотной стороне этой монеты, есть ли предложения, содержащие иностранные слова, которые были нормализованы в теге английского языка как английский? (то есть: предприниматель, сиеста, дух времени и т. д.)
1 ответ
в Spacy это означает «иностранное слово». Может быть, это то же самое в NLTK.