Частичные слова рассматриваются как функции при использовании bangla-текстов, где ожидаются полные слова, в sk-learn countvectorizer python

Использование текстов на английском языке работает хорошо, но при использовании бенгальских текстов выводит часть слов для функций.

simple_train = ['বিশ্বের সবচেয়ে ক্ষুদ্র কম্পিউটার তৈরির দাবি করেছেন যুক্তরাষ্ট্রের গবেষকেরা']
from sklearn.feature_extraction.text import CountVectorizer
vect = CountVectorizer()
vect.fit(simple_train)
vect.get_feature_names()

Выход:

['উট', 'কম', 'কর', 'গব', 'তর', 'ষক', 'সবচ']

0 ответов

Другие вопросы по тегам