Описание тега direct-runner

1 ответ

Как отлаживать функции DoFn конвейера потока данных /Apache Beam в затмении, используя прямой запуск

Я хочу запустить свой конвейер, используя прямой запуск в eclipse и поставить точку останова в моих функциях DoFn и отладке выполнения. Я попытался настроить прямой бегун с помощью следующих шагов: Добавить прямой бегун Maven пакет Настройте профиль…
1 ответ

Запись в файл в Apache Beam

Я запускаю программу WordCount в Windows, используя Apache Beam через DirectRunner. Я вижу, как выходные файлы создаются во временной папке (в папке src/main/resources/). Но запись в выходной файл не удалась. Ниже приведен фрагмент кода: p.apply("Re…
15 сен '17 в 15:03
1 ответ

Подготовка файлов к GCS с использованием Dataflow DirectRunner

Поэтому при использовании DataflowRunner мы размещаем файлы в GCS с помощью метода filesToStage, однако в DirectRunner этого не происходит. Есть ли способ поместить файлы стадии DirectRunner в GCS и использовать эти файлы, аналогичные DataflowRunner…
1 ответ

Apache Beam с DirectRunner (SUBPROCESS_SDK) использует только одного воркера, как заставить его использовать всех доступных воркеров?

Следующий код: def get_pipeline(workers): pipeline_options = PipelineOptions(['--direct_num_workers', str(workers)]) return beam.Pipeline(options=pipeline_options, runner=fn_api_runner.FnApiRunner( default_environment=beam_runner_api_pb2.Environment…
0 ответов

Профилирование памяти в искровом режиме DirectRunner

Я выполняю профилирование памяти с помощью YourKit и, чтобы упростить задачу для приложения Spark, я запускаю приложение в режиме DirectRunner. Машина, на которой я тестирую, имеет 32 ядра. Захваченный снимок выглядит так: "Прямой-исполнитель-рабочи…
1 ответ

JAVA - Apache BEAM- GCP: GroupByKey отлично работает с Direct Runner, но не работает с Dataflow runner

Я протестировал свой код с помощью средства выполнения потока данных, однако он возвращает ошибку: > Error message from worker: java.lang.RuntimeException: > org.apache.beam.sdk.util.UserCodeException: > com.fasterxml.jackson.core.JsonParse…
1 ответ

Отсутствующие параметры в классе DirectOptions

В документах упоминаются следующие параметры:direct_num_workers и direct_running_mode а также установка streaming вариант. Все это отсутствует в классе DirectOptions. Также при попытке установить те из args выбрасывается следующее исключение: java.l…
03 окт '20 в 22:22
1 ответ

Apache Beam DirectRunner с Cloud Pub / Sub

Я пытаюсь передать данные из Cloud Pub / Sub в Google Cloud Storage. Когда я использую бегуна DataflowRunner, конвейер публикуется в Google Cloud Dataflow и работает должным образом. Однако для некоторого тестирования я бы хотел, чтобы конвейер рабо…
0 ответов

Создание шаблона потока данных с использованием кода Java / Maven в GCP

Я хотел бы автоматизировать создание шаблона потока данных gcp, т.е. после утверждения кода в bitbucket / github код Java должен быть построен, и созданные .JAR-файлы перемещаются в соответствующее расположение шаблона gcp. Раньше я делал это с помо…
26 май '21 в 15:58
2 ответа

Конвейер Apache Beam принимает «Большой» входной файл (более 1 ГБ) не создает никаких выходных файлов

Я совершенно новичок в модели вычислений потока данных, и я делаю POC, чтобы проверить несколько концепций, использующих луч apache с прямым бегуном (и java sdk). У меня возникли проблемы с созданием конвейера, который считывает "большой" файл csv (…
1 ответ

ОШИБКА: не удалось найти версию, удовлетворяющую требованию grpcio <2,> =1.29.0 (из apache-beam[gcp])

У меня возникла проблема при выполнении конвейера Apache Beam в потоке данных (с использованием DirectRunner). У меня есть файл requirements.txt, содержащий apache-beam[gcp] среди других библиотек. Ниже приводится ошибка TraceBack: 2021-08-04 12:08:…
0 ответов

Соединение MQTTIO с Apache Beam ведет себя по-разному для разных тем

Когда я устанавливаю Mosquitto Broker и публикую сообщения в теме, подписываюсь на сообщения с помощью конвейера Apache Beam MQTTIO и печатаю сообщение в консоли, я могу получать все сообщения. Даже после 5-минутного перерыва, если я публикую сообще…
20 сен '21 в 08:14
0 ответов

Конвейер GCP Dataflow работает быстрее в DirectRunner, чем в DataflowRunner.

Я новичок в работе с Dataflow (GCP). Я построил конвейер, который работает в режиме DirectRunner быстрее, чем в режиме DataflowRunner, я не знаю, как его можно улучшить. Конвейер считывает данные из нескольких таблиц в Bigquery и возвращает файл csv…
0 ответов

ApacheBeam ElasticsearchIO не работает с последним эластичным поиском

Я пытался использовать API ElasticsearchIO в конвейере луча apache. И я не могу подключиться к elasticsearch. Любая помощь будет здорово. Мои версии JAR: org.apache.beam: луч-sdks-java-ядро: 2.37.0 org.apache.beam:beam-sdks-java-io-elasticsearch:2.3…
18 апр '22 в 14:02
1 ответ

Способ визуализации конвейера Beam с помощью DirectRunner

В GCP мы видим график выполнения конвейера. Возможно ли то же самое при локальном запуске через DirectRunner?
12 июн '22 в 14:09
0 ответов

Apache Beam Python > 2.38.0 DirectRunner ~ AssertionError: всего N пакетов с водяными знаками не были выполнены

При использовании Python 3.9 и Apache Beam 2.38.0 минимальный рабочий пример ниже работает нормально. Однако когда я использую Apache Beam 2.39.0 (или 2.44.0), пример завершается с ошибкой.AssertionError: A total of 2 watermark-pending bundles did n…
07 апр '23 в 19:24
0 ответов

лучевой питон с подпиской на публикацию/подписку: ошибка с DirectRunner, но не с DataflowRunner

У меня есть очень простой скрипт BEAM Python, который работает как шарм при запуске в DataflowRunner. Он берет данные из подписки Pub/Sub и распечатывает их... И все, и все работает. Но когда я запускаю его в DirectRunner, я получаю эту ошибку: ОШИБ…