Удалите числа и символы с помощью регулярных выражений на CountVectorizer

Question

Удалите числа и символы с помощью регулярных выражений на CountVectorizer

В настоящее время у меня есть функция CountVectorizer

CountVectorizer(stop_words=stopwords.words('spanish'),token_pattern=r'(?u)\b\w\w+\b')

с token_pattern по умолчанию используется Sklearn, и у меня есть некоторые результаты для get_features_names следующим образом:

000,02,10,100,1080,11,14,17,19,1994,1ª,2015,2017,22,24horas,2t0s6dgxnm,30,31,32,_aitor,_anamilan_,_cuteresa,_raquel97_

Я хотел бы удалить цифры и символ _. Я знаю, что для этого я должен изменить функцию регулярного выражения по умолчанию: r'(?u)\b\w\w+\b' Итак, есть предложения?

Благодарю.

ОБНОВИТЬ:

Хорошие слова: абразо, абуррир, экстранар, адемас

Плохие слова: анамилан,000,02,10,100,1080

Я хотел бы добавить ñ,á,é,í,ó,ú, я пробовал с [á-ú_ñ]+ но это не работает

3

regex scikit-learn countvectorizer

Источник

user6236510 07 май '18 в 16:30

1 ответ

Другие вопросы по тегам regex scikit-learn countvectorizer

user1135417 07 май '18 в 16:42 2018-05-07 16:42 · Answer 1 · 2018-05-07 16:42

Этот шаблон должен соответствовать всем цифрам и _.

[\d_]

1

Источник

user1135417 07 май '18 в 16:42