Обрабатывать каждую строку в определенном поле коллекции
Я работаю с Python 3.6, Pymongo 3.3.0 и MongoDB версии 2.6.12. Я начинающий как с Python, так и с MongoDB, извините, если ответ кажется очевидным.
Мне не хватает общей концепции построения какого-либо конвейера обработки данных для преобразования коллекций MongoDB с помощью pymongo. У меня есть коллекция с около 800000 документов, которые выглядят так:
{'_id': ObjectId('some_id'),
'accession': 'an_integer',
'cik': 'another_integer',
'filing_date': datetime.datetime(some_date),
'item': 'some_string'}
Теперь я хочу построить какой-то конвейер, который обрабатывает только строку в поле 'item' каждого документа с помощью некоторых инструментов из модуля nltk (удаление стоп-слов, определение стволов и т. Д.) И записывает эти обработанные документы в новую коллекцию. Если я не ошибаюсь, структура агрегации в MongoDB поддерживает только использование предопределенных команд, поэтому я не могу это использовать?
Я просто не знаю, с чего начать на самом деле, поэтому я ценю любую помощь. (Я знаю, как применять методы nltk к одной строке, хранящейся как переменная в Python, но я не знаю, как применить это к коллекции в целом.) Заранее спасибо.