Производительность ухудшается для запросов на основе диапазона в семействе столбцов cassandra, если он реализован с использованием многопоточных вызовов pycassa xget()?

Question

Производительность ухудшается для запросов на основе диапазона в семействе столбцов cassandra, если он реализован с использованием многопоточных вызовов pycassa xget()?

У меня есть типичное семейство широких столбцов с {rowkey -> uuid4+ данными даты и времени в виде столбцов}, для которых я реализовал запрос на основе диапазона, используя вызовы pycassa xget(). Не то чтобы меня мучила низкая производительность с однопоточным кодом, мне было более любопытно понять разницу в производительности, когда вызовы xget () выполняются параллельно, а не последовательно (из цикла for:).

Я использовал "поточную" библиотеку Python для реализации многопоточной версии запросов на основе диапазонов, и производительность фактически значительно снизилась. Теперь я знаю о влиянии Python GIL на многопоточный код, но могу ли я быть уверен, что это вызвано GIL? Может ли это быть что-то еще, что вызывает это?

Заранее спасибо.

Примечание: я не рассматриваю библиотеку "многопроцессорности", потому что не могу позволить себе иметь разные объекты ConnectionPool для каждого подпроцесса.

1

python-2.7 cassandra python-multithreading gil pycassa

Источник

user2445827 12 ноя '13 в 16:45

1 ответ

Другие вопросы по тегам python-2.7 cassandra python-multithreading gil pycassa

user341541 12 ноя '13 в 17:33 2013-11-12 17:33 · Answer 1 · 2013-11-12 17:33

Я бы попробовал поиграть с разными значениями для buffer_size карг для xget() (по умолчанию 1024).

Если проблема связана с GIL, вы увидите, что загрузка процессора будет где-то между ~90% и ~120%. В противном случае вы можете настроить размер ConnectionPool, чтобы убедиться, что для каждого потока доступно хотя бы одно подключение.

Если ничего не помогает, попробуйте профилировать ваше приложение: http://docs.python.org/2/library/profile.html.