Предварительная обработка текстовых данных

у меня есть набор файлов txt

вот как я открыл файлы

      filepaths = [os.path.join(root, i) for i in os.listdir(root)] #List of files in the directory
for path in filepaths: #ONE FILE FROM THE LIST
    if os.path.isfile(path): # Open Files
        fp = open(path, 'r',encoding="ISO-8859-1") 
        text=fp.read()

теперь я хочу

  1. удалить все стоп-слова, знаки препинания, апострофы
  2. преобразовать числа (200 ==> две сотни)
  3. + остановка

0 ответов

Другие вопросы по тегам