Формат данных в облачном хранилище при потоковой передаче PubSubmessage(строка json) из PubSub с использованием Dataflow?

Мы ищем поток PubSubmessage(строка json) из Pub-Sub, используя Dataflow, а затем записываем в облачное хранилище. Мне интересно, что будет лучшим форматом данных при записи данных в облачное хранилище? Мой дальнейший вариант использования может также включать использование Dataflow для повторного чтения из облачного хранилища для дальнейших операций для сохранения в Data Lake в зависимости от необходимости. Несколько вариантов, о которых я думал: а) Использовать поток данных, чтобы напрямую записать саму строку json в облачное хранилище? Я предполагаю, что каждая строка в файле в облачном хранилище должна обрабатываться как одно сообщение при чтении из облачного хранилища и затем при обработке дальнейших операций в Datalake, верно? б) Преобразовать JSON в текстовый формат файла с помощью Dataflow и сохранить в облачном хранилище в) Какие-либо другие варианты?

1 ответ

Вы можете хранить ваши данные в формате JSON для дальнейшего использования в BigQuery, если вам потребуется проанализировать ваши данные позже. Решение Dataflow, которое вы упомянули в опции a), будет хорошим способом справиться с вашим сценарием. Кроме того, вы можете использовать облачные функции с триггером Pub/Sub, а затем записывать содержимое в облачное хранилище. Вы можете использовать код, показанный в этом руководстве, в качестве основы для этого сценария, так как это помещает информацию в тему, затем собирает сообщение из темы и создает объект облачного хранилища с сообщением в качестве его содержимого.

Другие вопросы по тегам