Обрабатывать каждую строку в определенном поле коллекции

Я работаю с Python 3.6, Pymongo 3.3.0 и MongoDB версии 2.6.12. Я начинающий как с Python, так и с MongoDB, извините, если ответ кажется очевидным.

Мне не хватает общей концепции построения какого-либо конвейера обработки данных для преобразования коллекций MongoDB с помощью pymongo. У меня есть коллекция с около 800000 документов, которые выглядят так:

{'_id': ObjectId('some_id'), 
 'accession': 'an_integer',
 'cik':    'another_integer',
 'filing_date': datetime.datetime(some_date),
 'item': 'some_string'}

Теперь я хочу построить какой-то конвейер, который обрабатывает только строку в поле 'item' каждого документа с помощью некоторых инструментов из модуля nltk (удаление стоп-слов, определение стволов и т. Д.) И записывает эти обработанные документы в новую коллекцию. Если я не ошибаюсь, структура агрегации в MongoDB поддерживает только использование предопределенных команд, поэтому я не могу это использовать?

Я просто не знаю, с чего начать на самом деле, поэтому я ценю любую помощь. (Я знаю, как применять методы nltk к одной строке, хранящейся как переменная в Python, но я не знаю, как применить это к коллекции в целом.) Заранее спасибо.

0 ответов

Другие вопросы по тегам