Пул подключений Cassandra Pycassa, как правильно использовать?
Чтобы ускорить вставку Cassandra, я использую многопоточность, она работает нормально, но если я добавляю больше потоков, это не имеет значения, я думаю, что я не генерирую больше соединений, я думаю, возможно, мне следует использовать пул. выполнить (f, *args, **kwargs), но я не знаю, как его использовать, документация довольно скудная. Вот мой код пока..
import connect_to_ks_bp
from connect_to_ks_bp import ks_refs
import time
import pycassa
from datetime import datetime
import json
import threadpool
pool = threadpool.ThreadPool(20)
count = 1
bench = open("benchCassp20_100000.txt", "w")
def process_tasks(lines):
#let threadpool format your requests into a list
requests = threadpool.makeRequests(insert_into_cfs, lines)
#insert the requests into the threadpool
for req in requests:
def read(file):
"""read data from json and insert into keyspace"""
lines = []
for line in json_data:
print len(lines)
def insert_into_cfs(line):
global count
count +=1
if count > 5000:
count = 1
#print count
#print kspool.checkedout()
user_tweet_cf = pycassa.ColumnFamily(kspool, 'UserTweet')
user_name_cf = pycassa.ColumnFamily(kspool, 'UserName')
tweet_cf = pycassa.ColumnFamily(kspool, 'Tweet')
user_follower_cf = pycassa.ColumnFamily(kspool, 'UserFollower')
tweet_data = json.loads(line)
"""Format the tweet time as an epoch seconds int value"""
tweet_time = time.strptime(tweet_data['created_at'],"%a, %d %b %Y %H:%M:%S +0000")
tweet_time = int(time.mktime(tweet_time))
if tweet_data['to_user_id'] != 0:
""""4 functions below carry out the inserts into specific column families"""
def new_user_tweet(from_user_id,tweet_time,id):
ks_refs.user_tweet_cf.insert(from_user_id,{(tweet_time): id})
def new_user_name(from_user_id,user_name):
ks_refs.user_name_cf.insert(from_user_id,{'username': user_name})
def new_tweet(id,text,to_user_id):
'text': text
,'to_user_id': to_user_id
def new_user_follower(from_user_id,to_user_id):
ks_refs.user_follower_cf.insert(from_user_id,{to_user_id: 0})
if __name__ == '__main__':
Это просто еще один файл..
import pycassa
from pycassa.pool import ConnectionPool
from pycassa.columnfamily import ColumnFamily
"""This is a static class I set up to hold the global database connection stuff,
I only want to connect once and then the various insert functions will use these fields a lot"""
class ks_refs():
pool = ConnectionPool('TweetsKS',use_threadlocal = True,max_overflow = -1)
def cf_connect(cls, column_family):
cf = pycassa.ColumnFamily(cls.pool, column_family)
return cf
ks_refs.user_name_cfo = ks_refs.cf_connect('UserName')
ks_refs.user_tweet_cfo = ks_refs.cf_connect('UserTweet')
ks_refs.tweet_cfo = ks_refs.cf_connect('Tweet')
ks_refs.user_follower_cfo = ks_refs.cf_connect('UserFollower')
#trying out a batch mutator whihc is supposed to increase performance
ks_refs.user_name_cf = ks_refs.user_name_cfo.batch(queue_size=10000)
ks_refs.user_tweet_cf = ks_refs.user_tweet_cfo.batch(queue_size=10000)
ks_refs.tweet_cf = ks_refs.tweet_cfo.batch(queue_size=10000)
ks_refs.user_follower_cf = ks_refs.user_follower_cfo.batch(queue_size=10000)
1 ответ
Несколько мыслей:
- Размеры партии 10000 слишком велики. Попробуйте 100
- Сделайте ваш размер ConnectionPool как минимум таким же, как и количество потоков, использующих
параметр. По умолчанию используется значение 5. Переполнение пула следует использовать только в том случае, если количество активных потоков может меняться со временем, а не при фиксированном количестве потоков. Причина в том, что это приведет к большому количеству ненужных открытий и закрытий новых соединений, что является довольно дорогим процессом.
После того, как вы решили эти проблемы, посмотрите на них:
- Я не знаком с библиотекой threadpool, которую вы используете. Убедитесь, что если вы удалите вставки в Cassandra из картинки, вы увидите увеличение производительности при увеличении количества потоков
- Сам Python имеет ограничение на количество потоков, которые могут быть полезны из-за GIL. Обычно он не должен быть максимальным в 20, но это может произойти, если вы делаете что-то интенсивное использование процессора или что-то, что требует большой интерпретации Python. Тест, который я описал в моем предыдущем пункте, также охватит это. Возможно, вам следует рассмотреть возможность использования
модуля, но вам потребуются некоторые изменения кода, чтобы справиться с этим (а именно, не использовать ConnectionPools, CF или что-то еще между процессами).