Предварительная обработка текстовых данных
у меня есть набор файлов txt
вот как я открыл файлы
filepaths = [os.path.join(root, i) for i in os.listdir(root)] #List of files in the directory
for path in filepaths: #ONE FILE FROM THE LIST
if os.path.isfile(path): # Open Files
fp = open(path, 'r',encoding="ISO-8859-1")
text=fp.read()
теперь я хочу
- удалить все стоп-слова, знаки препинания, апострофы
- преобразовать числа (200 ==> две сотни)
-
+
остановка