Cassandra/Spark Read Performance

Question

Cassandra/Spark Read Performance

У нас есть рабочий процесс, в котором мы читаем данные из Cassandra и отправляем их в Oracle с помощью Spark(JDBC). У меня есть проблема, когда все данные за определенный день собирались в один раздел Cassandra. Раньше я считывал данные из одного раздела, а затем делал перераспределение для достижения параллелизма. Поэтому, читая все данные из таблицы с помощью Spark, мы использовали, чтобы производительность записи в Oracle составляла 4 миллиона в час.

Чтобы решить эту проблему, я разделил данные на более мелкие разделы, используя счетчики Cassandra. Даже тогда с небольшими разделами и без перераспределения мы все еще получаем производительность около 3 миллионов в час.

Можете ли вы, ребята, помочь мне в этом.

0

apache-spark cassandra datastax datastax-enterprise spark-cassandra-connector

Источник

user2978705 01 июн '18 в 07:02

0 ответов

Другие вопросы по тегам apache-spark cassandra datastax datastax-enterprise spark-cassandra-connector