SnappyData несколько заданий для достижения параллелизма

Я использую Snappydata и SQL для выполнения некоторого анализа, однако работа медленная и включает операции соединения с очень большими входными данными.

Сначала я рассматриваю разделение входных данных, а затем одновременно запускаю задания на разных разделах, чтобы ускорить процесс. Но во встроенном режиме, который я использую, мой код передает SnappySession, и я могу использовать bin/snappy-sql для запросов к таблицам, поэтому я предполагаю, что все задания snappydata будут использовать один и тот же SnappySession (или одно и то же пространство имен таблиц, как та же база в Postgresql в моем понимании).

Поэтому я предполагаю, что если я отправлю свою работу, используя один и тот же jar-файл с разными входными аргументами, пространство имен таблиц будет одинаковым для разных заданий, что приведет к ошибкам.

Поэтому мой вопрос: возможно ли иметь несколько snappySession (или несколько пространств имен, например, имена баз данных), которые выполняют серию операций независимо, предпочтительно в одном задании snappydata, чтобы избежать одновременного управления многими заданиями?

1 ответ

Я не уверен, что следую за вопросом. Может быть, это поможет:

Когда запросы отправляются с использованием snappy-sql, эта оболочка использует JDBC для подключения и выполнения запроса. Внутренне snappy запустит задание и выполнит параллельные задачи в каждом разделе в зависимости от запроса. И, да, этот сеанс SQL внутренне связан с уникальным SnappySession (сеанс спарк).

Или, может быть, вы пытаетесь разделить данные по многим таблицам и начать обработку этих таблиц независимо, но параллельно?

Другие вопросы по тегам