Минус запросов между HDFS и CASSANDRA с 70 миллионами записей занимает около 40 минут

Question

Минус запросов между HDFS и CASSANDRA с 70 миллионами записей занимает около 40 минут

У моего файла партера HDFS и таблицы Cassandra 70 миллионов строк, 16 столбцов и 14 столбцов в формате Json, длина которых превышает 2000.

Я делаю источник минус цель и цель минус источник. Затем подсчитывается количество каждого кадра данных HDFS и Cassandra. Все это заняло у меня 40 минут.

Работает на пряже с пространством 6 ТБ, имеет 20 узлов данных и 1640 ядер.

Даже если я изменю число исполнителей на 100, а количество ядер на 4, производительность не улучшится. Пожалуйста, дайте мне знать, если это максимальная эффективность, которую мы можем достичь.

1

apache-spark

Источник

user9587655 09 июн '18 в 07:33

0 ответов

Другие вопросы по тегам apache-spark